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Kapitel 1 
Kiiileitung 

% , J a Wln.l wurde cine "-«<• Kl.w pro R ranmHcrbarcr Logikbausteinc 

, ir ko,,.i ! ;u 1 im „nd konnen MM.*., d^italc Kohahniigcn real^rc,, 

...„, A,.«.mloi T n(>m .,. SchalUrngscntwurfe (Rapid 

• .".IXi^ - r fiir 7 

., l(kz ,U;; bei d,..on sul. di, Produktion n„-s kHndenspez.f.schen Sd.altkren** 
, hl VnUv-xUl,,.,.. KriiBen-r, n.cl.rfad. pro*nunmierba,er (rekonhgnncrbarcr 

/; , ^att. «™.on. Kekonfi^u-rbar, FFGA. vcrcmen dnnat.d.e. J.lex.b.htat 

; So^-aro mh dcr U iS <u.*s(ahi,k,i,. ^n.dnn^pezihsclx. Hardware. 

™i,.. n dp FinsHniiiVlk-hki-ii.-.n bictei die KombinaUon ones konve.iLoi.el- 

"^r™™^ ,n«i Jokn.cn Spcicher bes.eh... Die 

M ' ''C": " - r -u Mik,.— , do, WirUs ansfnl.rcn und Iril- 
" Ti ' K-- *rZ « a..-la-fm. Jcrlod. fe. cine solche Amvendnng ,.ur schwer 

V ,, 1S , a,, d,n K ^;^;-^ t , 1I S , ( r iwar ,.K:,.wkk.«»g aucl. Kcnnlnis.se. im 

;;s^ d ;:r e c iiw. ii. a,^.™ ...,«* «.» ***** w - 

.;.-„ Teilen nia.nu-!! iinplcnienticrt wcrdeu. 

. .. • ].,.. ; ,., i ■■„.«,,.,- (iw-scv Reonc-r ■ dnrcl. S»riwnKsV;nlwicklcr - 

' I",.:'; , v^-ilhVft." die 'eesr.m.e Anwendnag in eincr hoheren Program.n.er- 

.,.r. c. e /i s,k,.i /. ,.. |>e . )r<yrratni „ aut . tx „,«M«.-h cine Amvendung far den 

i. *** 

■ «.i„on KBicI.o« kombinior.cn I IkvspIzit ent.^. h-.l. 
! te ,,^ falpen* Tp;iprobk,uc H<* u-cden: 7.«»Schs. nM B d., A «»«///</«'< , 



KAPITELl. EINLEITUNG 



auswM d.ejen.gen Programmteile bestimmen, die iiberhaupt durch rekonfieurier 
Me Hardware ausgefuhrt werden konnen. In, nachsten Schritt, der Kop^Z Z 
Synthese IIlussen f fir die Kandidaten aus der Programmdars ellung ZZZ 
Beschre.bungen genenert werden. Schliefllich erfolgt die Integration der nZZl 
und Software-Antene. Dabei mu 8 auch eine ^ a ra/5i are .p;^lX 

Die in dieser Arbeit entwickelten Methoden zeigen Losungsmoglichkeiten fur di P 
genannten Probieme auf: Der Kern der Arbeit fst ei„ neues vfrfanref dal em 
mals aus e.ner ,„ lp erat,ve„, sequentiellen Eingabespracbe strukturelle SchaTtu * 

ausi utzen. D,e Schaltnngen beruhei. auf dem im Hardware-Entwurf seit Ian ff L 
erfdgreich emgesetzten PipeJinc-Prinzip, wodnrch ein hoher Durchsatz ermfiS 
w.rd. *ur d.ese Koprozessor-Synthese wurde ein Analyseverfahrefentw^^^^^ 
d.e von Uberselsern fur Vektorrechner bekannte Schleifen- Vektorisierunl ffir d e te 
sentl.ch flexiblere rekonfigurierbare Hardware erweitert Da nach Xr ZlfZ 

Ahh? T • , r S , C,la,t,,neen s y" thetisiert we ^en, deren Parallels nur ZcTdteL 

torS f *f m T nZt WiFd - Ak "^^^didaten werden deshalb d I vet 
tonsierbaren Schleifen ausgewahlt. 

^iS V "" igbaren FPG r As mit diesen Pipelines optimal auszunutzen, wurde ein 

StlTdof ^'r™^" H-dware/Software-Integration eine allgemeine 
bcnmtlste le.dcfln.ert, d.e maschinenspezifische Details in begrenzten ProLamrT 

wanrend d.e genaue Architektur des Wirts und der Konro^nr K„ t „ 
-mange Entwick.nng von Steuer-Funktionen unl XSTS Z "L " P 
SuTu^^ -den relevant i sl . Sft^ ^ 

aas am aem W.rt la.ifendc Programm emgefiigt und die Module in die Koorozessor 

SS'XSES Ko daC f aUt ° matiSCh aUf ^" feD -riT~ 

CntwiCke,t ' daS die K -*daten 
aosciiatzt, ob s.ch d.e Auslagerung auf. einen Koprozessor iiberhaupt lohnt Denn 

2 K & 7 CD T d diC BescWe « ni ^»g clurch den zusatzlichen ZeS'arf tor 
d.e Konfigunerung der PPGAs und fur die Datenubertragung z^iscSn U nd 

sdl~eir'dt tC ^ Verfahren berUM ^ -"raSel^Ma 

. schmenmodell, das von den spez.ellen Eigenschaften eines Rechners abstrahiert Im 
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Gegensatz zu ;uis. dem Hanhvare/Software-Codcsign bckannten Mcthoden vcrwen- 
dct die antomatischc Auswah) nidit nnr Informatioiicn, die (lurch Profiling oder 
durdi cine slat ische Analyse wahrcnd der Ubcrsetzung gewonnen werden. Viclniehr 
geht audi die aktuellc Grofie dor Anwendungsdaten wahrend des Programmlaufs in 
die Enlsdieidung cin. Autferdeni wire! amojnal isch beslimmt, ob sich die Umkonfigu- 
riermig des Koproy.e$sors — audi zwischen verscliiedenen Pliasen eines Programms 
— lohnl. 

Der Rest dieser Arbeit gliedert sidi folgendermaften: Im nachsten Kapitel wird ein 
erstes Hdspicl lur den Einsatz eines strukturprogrammierbaren Rediners vorgestellt 
und ein grobcr Obcrblirk Tiber einen kombinierten Cberselzcr gegeben. Danach stellt 
Kapitel 3 die Crundlagen M ruk turpi ograininknbarer Hardware und Kapitel 4 die fur 
diese Arbeit le.levamen vcrwandlen Techniken vor. 

Die Kapitel . r , und (\ st* Hen den Kern der Arbeit dar: Kapitel 5 fuhrt die auf Vek- 
l.orisienmg und Pipeline- Synt he.se boruhende none Methodc znr Generierung re- 
konlignrierbarer Koprozessoren ein. Danach besdircibt Kapitel 6 die konibinierte 
!Strukturpii>gramimenmg : also die gennue Struktur eines kombinierten UberscUers, 
die Sdmilt sidle zur 'Integration der Kopmzessoren init dem auf dem Wirt lau- 
fenclen Progranun 'sowie <lie Part itionierung, die automatisch zwischen Software- 
uud Hardw;uv- Implement ierung auswahlt. Im nadifol&cnden praktischen Kapitel 7 
wird iler Prototyp Moi.n:u PlPfcUNF. OomPILF.h, der zugrundcHcgcnde Ubersetzer 
MOCK A und die vcrwendcte KPGA-Karte EYC1 vorgestellt, bevor Kapitel 8 An- 
wendmigsbe^piele mil MeBergebnissen pra\sentierl. SddieBIich werden in Kapitel 9 
niogliche I\ rweitening.cn der vorliegenden Arbeit - sowohl bcziiglich der Synthcse- 
Yerfahren als audi bezuglich <les zugrundelicgcnden Masc lnnenmodells — diskutiert, 
und das letzie Kapitel falk die Ergcbnisse zusammen und gibt einen Ausblick auf 
of fen e Fragcn. 

DicAnhange besrlnciben eine Mcthode zur Beredinung der Gcwichtsvcrtcilung li- 
nearer Blockcodt -s durdi rckonfigurici bare Schaltungen und ein formales Optimie- 
ruiigsverfahren zur J*an itionierung im Hardware/Software-Codesign. Diese Verfah- 
ren warden audi im Zusamnienhang mil dieser Arbeit entwickclt. 



Kapitel 2 

Ein einfuhrendes Beispiel 



In diesem Kapitel betrachten wir zunachst die Bildverarbeitung als geeignetes An- 
wendnngsgebiet, urn den Nutzen rekonfigurierbarer Hardware zu verdeut lichen. Da- 
nach wird aus den Erkenntnissen dieses Beispicls die Grundstruktur eines kombi- 
nierten Ubersetzers zur autornatischen Erzeugung solcher Anwendungen abgeleitet 
und das weitere Vorgehen, wie die Verfahren dieses Ubersetzers vorgestellt werden, 
skizziert. 



2 , 1 Bildverarbeitung 
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(c) (d) 
Abbildung 2.1: Masken fur Bildverarbeitungs-Operatoren 



Vcrschiedene TVansformationen von Grauwertbildern werden zur Bildbearbeitung 
oder zur Vorverarbeitung in komplexen Bilderkennungssytemen verwendet. Dabei 
wird fiir jeden Bildpunkt des ursprunglichen Bildes ein neuer Grauwert berechnet, 
der nur von einer 3 x 3-Umgcbung des ursprunglichen Punktes ahhangt. Die IVans- 
fonnationen werden folgendermaBen berechnet: Jeder Punkt der 3 x 3-Umgebung 
wird zuerst mit einem festen Kocffizienten multiplizicrl, dnnn werden die Ergebnisse 
summierl und mit einer Konstanten skaliert. Gegob*;nrtifiillH rtutB der neue Wert 
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2.1. B1LDVERARBK1TUNG 

i WWirbercicl. (moist das Inlcrvall voti 0 bis 255) einge- 
110 ch anf cineu W* A "7 K ^^, ^ oft «b Matrix dargcstellt und als 
sdniinkl wer<lc.i. Dii- neui. K< '\"'f" 1 ..... daT die vc , brcitelc Bildverarbei- 

,,,,,, b c,eichnca Abhjld-us 2. * f^^f^^ die Maske (a) jeden 

d UI o.b d,.n - **1 '^^ 3il(1 ^,, mgcn aus . D5e Scbeloperatoren 

i )i >:iii< r.s.-.l.« ) « w» mint < , rf . i lllCTva ]iemschrankung 

cim-r zwcitcn Ableitung- 

VAR P , IKEW: "ARRAY {0. .VERLEN-ll , [0. .HGRLEN-13 OF CARDINAL; 

FOR V ;= 1 TO VERLEN-2 DO 
FOR H := 1 TO HORLEN-2 DO 

Wl •= MV-i,H-l] ♦ PlV-l.H] ♦ PCV-1.H.13; 
TKP2 -PLV .H-13 ♦ ™ > H+1 1 

W3 :- HVO.H-13 * P[V*1.H3 * PW1.1H13: 
VKF.VLV.H3 :- (THP1 ♦ ™P2 ♦ TMP3) DIV 8 
END 
END 

Abbilrim.g 2.2: Bildglattung nach Abb. 2.1 (a) 

; L.r,.t«.to MOUULA-2-Programjne, die ans cincm Grau- 

wrthiltl P d«r ^rplle VERLEH x HOKLtM t F3n«.bebild. Eine Intervallein- 

O.S cvsvc P.ogn.nun (Ab .,]d,u, 6 ^^^.^ (Abbildung 2 : 3) 

srhr5i.k.i..fi is« •.. d..^n, 1 :A\ me t. nol.g. 1><* :»c U. I tor ^ 

K ;l „,e„vver . Dn nJ. « ^ ; sdllicBlid , koinl , inier t die Addition dcr 
*fo audi Dui 1 ke)/lUll-Ll»« l> -.nfcC «■»«' . Joch UIlzu las S ig groBe 

^*e™^ Die Abbildungcn 

^r~d ic ^ 
^^^^ 
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KAPITEL 2. BIN EINFUHRBNDES BB1SPIEL 



VAR P, P»EW: A RRAYCO. : VERLEN-lJ )[ o..HOK L E^l] OF CARDINAL; 



FOR V := 1 TO VERLEN-2 DO 
FOR H := l TO HORLEN-2 DO 

HTMP : = (P[V+t.H-lJ - PCV-l.H-lj) 
(P[V+1,H+13 - P[V-l.H+i]> 
2 * CPCV+1,H] " PCV-l.H])- 
VTMP ;= (P[V-1,H+1] - PCV-1.H.1]) - 
(PCV+1.H+1J - PCV+1,H-1D) h 
2 * CPEV.H+1] - P[V,H-13)* 
PNEW[V,H3 ABSCHTMP) + ABS(VTMP) 
IF (PHEWCV.H] > 255) THEN 

PNEW[V,HJ := 255 
END 
END 
END 



Abbildung 2.3: Kantendetektion nach Abb. 2.1 (b) und (c) 




Abbildung 2.4: Originalbild 



mirv /YD oocii-yyvn i ^ 



n\ / tt.Mttii'inVNG 
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Abhikhmg CcglaU-nms Bild 




A hbi Hung 2.iv. Kaiucn des B ikies 
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KAPITEL 2. EIN EINFUHRENDES BEISPIEL 



cher Bcrechnungen durchfuhren. Wir konnen solche inneren Schleifen vektorisieren 
und durch Pipeline- Schaltungen auf dem Koprozessor ausfuhren. 



I DIV8 I 
PNEWTV] 

Abbildung. 2.7: Pipeline-Schaltung zur Bildglattung 



PIV-I] 



PfV] 



P[V+1) 



jrBttUt H^r^ ^BrBt 



VTMP 



| ABS | 



ABS 

ZD — 



255 
MIN 
PNEWIVJ 

Abbildung 2.8: Pipeline-Schaltung zur Kantendetektion 

Die Abbildnngen 2.7 und 2.8 zcigcn diese Pipelines. Die Eingaben der Schaltun- 
gen sind drci aufeinanderfolgende Zeilcn (PCV-l], P[V], P[V+1]) des Eingabebildes. 
Die mit A gekennzeichneten Register speichern jeweils den letzten und vorletzten 
Wert <ler Eingaben, so dafi jeweils drei ncbeneinanderliegende Bildpunkte jeder Zeile 
vorlicgcn, Diese werden daiin entsprechend den Vorgaben der Programme zur Aus- 
gabe PNEWCV] vcrkniipfl. 1 Jn Abbildung 2.8 sind die Teilschallungen, die die Zwi- 

*Zur Vereinfachimg der Division in Hardware wurden fur Hie Bildglattung nicht alle neun Punkte ^ 



2.1. BJLDVERARBE1TUNG 
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sdicnergebnisse HTM? mid VTHP ahiiHch wie das Ergcbnis PHEW [V] in Abbildung 2.7 
bcrechnen, in eincm Block zusammengefaBt dargestcllt. 

Offensiditlidi ist das nadist.e - und schwierigstc — Teilproblem dieser Arbeit die 
Koprozcssor-Syrit.he.se, also die FYage, wie diesc SchaHungcn automatisch aus einem 
Program™ generiert werden koimcn. Dazu miisseii auch die Analyscn bestimmt 
wcrden die fur die Vek tori signing notig sind, lira aus einer sequenticllen Software- 
Resdiicibung cine effizicme, parallele Hardware-Beschrcibung zu crhalten. Danach 
wird geklart, vie die Integral ion der Sdialtungen in das auf dem Wirt laufende 
Programm geschchen kann. 

Der Hauptvortcil einer Pipeline- Ansfiihrung liegt darin, dafi alle Operatoren parallel 
arbeiten koniicn. AuBerdeni werden Eingabewcrte mid Zwischcnergebnisse direkt in 
der Sdialtung gespeichcrt nnd mil den Eingangen der nachfolgenden Operatoren 
verdrahtet, so dafi weniger Zyklen fur SpeichcmigrifTe imd den Transport der Daten 
bciioligt wcrden. Die Strvkturpvyramvacrvng verlagert also — im Vergleich zvi 
gewohnlichen Inst.rukt ionsprograimnicrnng - AdreBbcrechnuiigen von der Laufzeit 
in die Ubersetzungszeit [Har96]. 

Dies bewirkt eine wcsentlich kiirzerc Daner der Pipeline-Ausfiihrnng im Vergleich Q ^ 
zur Soflware-Laufzeit, wie K4ess«ngen auf einer Sun SPARCstation 10/40 mit der £ u 
FPGA-Koprozessor-Karte EVC1 (siehe Abschnitt 7.1.1) gezeigt haben: Fur die 
Bildgla'ttung wird ein Beschlcmiigungsfaktor von circa 22, fur die Kantendetektion 
sogar circa 35 errcicht. 2 * 
Jedocb wird der IlarcUare-GeschwiiKligkeitsvorteil durch sehr hohe Zusatzkosten ^ / 
erkaufl: Erstens imissen die FPGAs des Koprozessors konfiguriert werden, und zwei- £f 
tens ist eine Ubertrapnng der Daten vom Wirt wm Koprozessor und wieder zuruck 
noUvcndig. Ubcr die langsatnc Schnittstolle der EVCl-Karte, die audi keine direkte 
Datenubcrtragimg zxmi lokrden Speidier crmoglidit, daucrt die Koufigurierung des 
FPGA etwa 0.21 s, und die Ubertragung der Bilddateri auf die Kartc und zuruck 
circa 0.20 s. Die Gesaiiitdjnier fur eine Ausfnhrung in Hardware wird dadurch auf ein 
Mehrfaclics der reincn Pipr.liiie-Ausfuhruiigs5ie.it erhoht, und die Bosch leunigungs- 
faktorcn reduzieren sich dra?;tisr.h auf 3.3 bzw. 2.1. Wird in einer Mesru-sg ein Algo- 
rithmus jedodi zchnmal auf ria-ssclbe JJild angewendet, wirken sich die Zusatzkosten 
nichl so stark auf die Beschleunigung aus, da insgesamt nur eininal konfiguriert und 
komniuniziert wcrden iriuB. Die result ierenden Faktoren sind dann aclit bzw. 13. 
Daunt wird bercits an diesem Bcispiel War, daB die Konfigurierungs- und Kommuni- 
kfitionskostcn eincn starken EinfluB auf das Beschleunigungspotential der Koprozes- * 
soren haben und moglidisl gering gehalten werden sollten. Eine Pipeline- A usRihrung 
ist also nicht immer sinnvoll, wenn sic moglich ware. Deshalb stclit die autoinati- 
schc Auswahl geeigncter Sclileifen — die llardware/Software-Partitionicrung — die 



der Umgcbung vcrwwidet, soudern nur acht. So kann die Division durch cinci. Sdiic.beoperator 
Ctrsfvtzt wcrden 

-Die genauen Meficrgebnissc verder in Abschnitt 8.2.3, Tnbelle 8.3, vor^strlll, und.niihere 
Aiiuuben ?,ur verwenriclen KtcBmelhodr. befiiulen sich in Absdmitt 8.1. 
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Abbildung 2.9: Grundstruktur cines kornbinicrtcn Ubersetzers 



letzle wichtige Fragestellung dieser Arbeit dar. Sie muB Schatzungen fur die Be- 
sdileunignng durch Pipelines, abcr audi fur die Zusatzkosten fur Konfigurierung 
und Kommunikation berucksichtigen. 



2.2 Grundstruktur kombinierter Ubersetzer 

Ein kombinierter Ubersetzer fur einen urn rekonfigurierbare Koprozessorcn erweiter- 
ten Rechner bendtigt folgende Funktionalitat, urn die anhand des im vorhergehenden 
Absdmitt vorgcslcllten Bcispiels aufgezeigten Probleme zu losen: Er wiihlt aus einem 
Eingabeprograinm in einer hoheren Program mi ersprache automatisch Kandidaten 
aus und generiert fur sie Koprozessorcn. Dicse werden dann automatisch in das Pro- 
gramm intcgricrt, und cin Hard ware/Software-Parti tionierer ruft sie auf, wenn dies 
cine Bcsdileunigung erwarten lafit. Damns ergibt sich die in Abbildung 2.9 gezeigte 
(Grundstruktur eines kornbinicrtcn Ubersetzers. 

Die notwendigen Ubersetzer- Komponenten werden im weiteren Verlauf dieser Arbeit 
folgendcrmaBcn cntwickclt und vorgcstcllt: Da die neuen Vcrfahren zur Vektorisie- 
ruiig und Pipeline-Synthese die wichtigsten Ergebnisse der Arbeit, darstcllen, werden 
wir sie — zusammen mit der Kandidatenauswahl — in Kapitcl 5 bchandeln. Wir 
betrachtcn also zuerst den linken Zweig in Abbildung 2.9. Erst danach, in Kapitel 6, * 
wenden wir uns der Hard ware/Soft ware-Integration und der Partitionierung zu, die r / 
die Koprozessor-Synthese erst zu einem kompletten Ubersetzungssystem erganzen. ^ 
Die : nachfblgcndcn Kapitcl bchandeln dann die praktische Implcmentierung und die 
Wcitereiitwicklung der Verfahren. Znnachst werden in den nachsten beiden Kapiteln 
jedoch die Grundlagcn strukturprogrammierbarer Hardware und fur uns relevante 
verwandte Techniken vorgestellt. 



Kapitel 3 

Gtrukturprogrammierbare 
Hardware 



IWs kapitr! besr.brribl zimachst die wichtigston Higonsrhaftcn pivgrammicrba- 
rtr nulbliiUrbavirtiint U nd jjirer Ent wuffywcrlczeiigc sowic die Architektur struk- 
hnprogramvnrjhaur. Huhvtr, in d^nen solcht- Hansteine eingeselzt wcrdon. Danach 
wi-rdon die ftooignotoii AnuciuIiMi.-.M hictc dicsor Rccbncr cliaraluei isicrt. 



3.1 Programrriierbare Logikbausteine 

Dirser Absr.lii.iii bescl.reibl die- A rrhiteki men programnncrbnrer Logikbausteine. 
Line widiti«t; KlasM sullen die i W^tn,t (RAM und ROM) dar, die hier 

jedorh nirbl n;ihe! lu-i r;,i liM I w< rdm sullen, In dieser Arbeil besdiafligeii wir uns 
v.i bi.el.r mil < 'h\ V >, die nirbi y „m Speirbem von Onion, sondem spczicll zur Reali- 
su run- .inurij(Iun«^|M zifisrbn l.-i^ -| KT Funktioneii cnlwickeh unrden. 



3.1.1 Programmable Logic Arrays 

Prnynmnnubh Lo<nv Aw: V > (J'I.A< ) kftimcn fine bclichigc zwcisl tifigc kombinato- 
riM-Jie Scitallung rcalisieTen. Die ersu c ni f r verkniipfl beiiebige Kombinationen 
do Lm-iii^e (odor derm Nc-ai ir,i,e!:) konjnnkliv, xejihrend die y.wi-iu- SUife <lie 
Aus-ange der ersten Smfe disjnnfciiv vorkniipft. Kinige Ransteme konnen die Aus- 
«;hbei, ii, oc iaktrien Fiipfiops speir.hern. so d;.B cine Riickkopplung aid die Klngangc 
nnd damii die Realisienmg rndliri.rr Automaton moglich wird. PI. As sind in dcr 
HeoeJ ln;r ( .|, im;i | yM pro ft rrj»mi* rt n. J Fine Finfuhnmg zn PbAs bebndel- sich ■/.„„, 
Beispicl in [Wak94j. 



•K> Rmisirino. dit- v H^chi iin<: eii! p;,»mi;il nru progm minim, wc-nlrn kimnm. 

II 
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3.1.2 Field-Programmable Gate Arrays 

Fieh ^Programmable Gate Arrays (FPGAs) sind eine Weiterentwicklung der PLAs 
S.e konnen bel.eb.ge synchrone Schaltwerke realisieren wenn nur di* An 1, ^' 
vorhandenen FPGAs gro8 genug und die Taktperiode Ta^fgenug to* 
FPGA* ibestehen aus einem Feld rekonfigurierbarcr Logikblocke, die durch schaltbare 
F^7 en b l d, t* K g I k r biniert -rde„ konnen. Man unterscheidet fetSrZ 
nit , ^'f b '° cke Zwei Ei 'W verkniipfen und das Ergebnb TeZZ 
n pflop spc.d.ern konnen, und grobkomige FPGAs. Bei diesen bilden die Z 
g.kblocke e.ne Oder zwei beliebige boolesche Funktionen von melareren bL zu ne^ 
Eingangcn, d,e durch Wert etabellen realisiert werden. Deshalb werden diSe FPGA, 
auch wertetabcllen-basicrt* genannt. Die Ausgaben dcr Funktionen kfi^! ^ 
-» zwei Flipfiops gespeichert oder direkt weite^ben w^den * 
A»ch bei FPGAs gibt es einfach und mehrfach prograrnmierbare Chips Fur struk 

sZ;r a,m : u:rharc Rechner sind nur fpgas ^ 5 u" d ££ 

Scha ltuug ohne Gcr „ te proerammiert werden ^ ^« «nd jn, der 

cZZ Wn '^r ierbarer 0dei ^^rogrammieroarer Ha2Z 

Sss wt»rr?^^ enmg eines Pro2essore (in dcr **> ^ * 

*. beHebig oft und direkt i„ Rechner L A^SS?^ 
f p C I ™ r « konfi K»"erbares FPGA arbeitet; mu* sein aus statischem RAM beste 

,Tk„l ! 8 ," , e,nC Mdere Sd,alt » n E benotigt, kann das FPGA wiener 
umkonngunert werden. Da dcr Konfigurationsspeicher fluchtig ist mufi das ?PGA 

f'pg/f! r t M °\ deT Strom — 6 - g neu kon^im ™ ^ EMge 
Z^M ?" ," nC " a,,Ch Parlien rekonfi g»"ert werden, wahrend andrre sS- 
tungstcJe we.tcrarbe.lcn. Bei FPGAs der ncuen Serie XC6200 [KW95] der F^r™ 
Xdn« kann .usatzlich direkt. fiber eine schnelle Schnittste.le au^^w!ie d crater 
««. r l^flops zngegriffen werden, wcshalb diesc Bauteile besonders ffir Jo 
Anwendungcn in strukturprogra.n.nierbarer, Rechnern '^S^SS^ 

KoT Seh^SC,^ ' eJ, rek0 » fi S-ert werden: Beixn XOffle oW 
Konfigunerung nur circa 1 00 Mikrosekunden. Kompiette 

Abbildung 3.1 zcigt den AuO.au eines grobkornigen FPGA der Serie XC4f>nn * 
H ^ox PU^Zwi^end d, C,,B (configurable lo^tjjjj^ £ 

Si^^ r nd r«* - * ^ 

clem TwJT der SehZJ (X de £ S Z t der d^E «*P«id* 
jedem Takt em Ergcbnis erJugt wird Ergebn.sse ausgegeben werden), fells i„ 

3 engl. lookup-table- oder LUT-based 
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Abbildong 3.1: Aufbau eines giobkornigcn Xiiinx FPGA 



gikblockcn bcfinden sidi Vordrr.htnngskaiia.lc, diesidi in einzehie Scgmente aufteilen 
mid iiber Kreuzvertciler konibiniercn lassen. Die Pins des ("hips sind fiber Ein- 
Aiisgabc-Blocke QOB, j«/o«1 block) mil de.m lnnercn des FPGA verbunden. Die 
K)J3.s verslarkon die Pin-Signalc und enlliaHcn je ein Eingabe- und ein Ausgabe- 
Flipflop, nm bcispidswei.se ayyndirone Ein gauge zu syiichronisieren. 
Fine wescntlichc led;nolojt;isd>o Voraussetzunp. fin diesen Bausteintyp war die Rea- 
ligning von sdialibatcn Yerbindungen in CMOS- Technologic, mil der sidi erst die 
VerdrabUmg eines inliebigcn Sdiahwerks realisieren lafit. 

Die erslcn FPGAs hail en mir eine Komplexitat von wenigen tausend Gatteraquiva- 
leijlen. ?ie waien dali«-.r mir als flexible -Implement ierung fur uiislruklurierle Schal- 
inngM-eilt ("glue logic") ehr/user/en. Die Loj/ik m.heutigen FPGAs enlspricht bis zu 
100.000 (bittern. Dami! lassen sidi auch gauze Fmiktionscinhcitcn in FPGAs rea- 
lisieren. Die elemem aren YYrarlu itnngsemhc.iten diescr FPGAs sind weilerhin ein- 
y-rlne Bits, die fur Daten mil y i ottcrer Wort! 5 n go '/usammenpefaftt werden inusscn. 
.Icdoch tmiersiui*/< n einif< KPGA-Familien audi arithmctiscbe Opcratoren in beson- 
derer Wcise. wie enva die "d t*di» a led carry logic" fiir Zabier mid Addierer dcr Xiiinx 
XC4000-Se.rie. .ledodi benoiigen kompliziericrc Opcratoren wic Multiplizierer und 
Dividierer sowio (^leitkonmniopn atoren so vide (Walter, daB eine Rcalisicrung auf 
bcut.igoi FPGAs meisl nidu in Frage konnnl. Dies ist insbesondere dcr Fall, wenn 
die rekoufiguricrhare Logik yiir Beschleunigung von Standard prozessorcn dicnen soil, 
die iiber hoc.hoptimicrte Aritlnneiik-Einheiten verftigen. 

Neuevc F PC A - A rcl i i i c k i n re 1 1 wit tOPA/Xpuicr [HKR94J oder RaPiD [ECF96J 
wurcie.ii nicln znr Ki-hlisicnrng beliebigcr ]*ogik entworfen, sonde.™ spczicll fiir 
arillinteiik-intensive Anwendnngen. dwa in der digitalcn Signalverarbcitung. Sie 
verfiigeii iiber breitere Da t en pfa d< . verarbcitcn also ganze Worter als clcnientarc 
Eintjeii. Dieso wort -oritn lit rk-n J PGA? kombinieren die Vorleilc der Struklurpro- 
grajiiiniernng mil Idst imp>faln>cn. nicht konfiguricrbarcn Operatorcn und ALUs. 
Sie eignei; sidi als alternative Zidplattforin fiir die in dieser Arbeit vorgeslcllte Pro- 
graniuiienncthodik. 
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Znr Verkniipfung mchrerer FPGAs werden auch Field- Programmable Interconnect 
Devices (FPJDs) vcrwendet. Sie basiercn auch auf schaltbaren Verbindungen und 
ermoglichen es dem Entwickler, die Pins der angeschlossen FPGAs beliebig zu 
verdrahten. Dies entlastct die meist knappen intcrnen Verdrahtungsressourcen der 
FPGAs. 



3.2 Entwurfswerkzeuge fur FPGAs 

Der Schaltungsentwurfs-Prozefi fur FPGAs unterscheidet sich nicht grundsatz- 
lich von dem fur ASJCs (application specific integrated circuits). Er wird durch 
Entwurfswerkzeuge 4 unterstutzt. Diese spezifizieren die Funktion auf hoheren Ebe- 
nen als die fruhen Silicon Compiler. 

3-2.1 High-Level-Synthese 

Unter High-Level-Synthese [MR92, Cam90, GDWL92, CW91] versteht man den 
automatischcn Entwurf von meist synchronen Register-TYansfer-Strukturen (RT- 
Strukturen) aus algorWimischen Verhaltensbeschrcibungen. Diese Spezifikationen 
sind Programmen in hoheren Software-Programmiersprachen sehr ahnlich. Deshalb 
enthalten High-Level-Synthese-Systeinc auch Komponenten gewohnlicher Uberset- 
zer, und aus dem Software- Bereich bekannte Optimierungsverfahren konnen ver- 
wendet werden. Im Gegensatz zu normalen Programmiersprachen konnen diese 
Hardwarc-Bcschreibungssprachen, z. B. die genormte Sprache VHDL & [IEE, LSU89], 
auch nicht-funktionale Aspekte wie das Zcitvcrhalten einer Schaltung ausdriicken. 
In den meisten Fallen konnen auch parallele Prozesse spezifiziert werden, und in 
einigen Sprachen dfirfen Verbal ten sbeschreibungen und strukturelle Beschreibungen 
kombiniert werden. So konnen unterschiedliche Schaltungsteile auf verschiedenen 
Abstraktionsniveaus spezifiziert werden. 

Die Srhwirn^cit der High-Level-Synthese liegt weniger darin, irgendeine verhal- 
tcnsgleiche RT-Struktur fur die algorithmische Eingabe zu erzeugen, sondern darin, 
eine ejjizicnic Struktur zu finden, die die Geschwindigkeit und den Flachenbedarf 
optimiert. Jedoch ist die optimale Umsetzung ciner Verhaltens- in eine Struktur- 
beschrcibung bei beschrankten Rcssourcen ein NP-hartes Problem. Deshalb wird 
es in mehrerc Tcilprobleme zerlegt, fiir die sich einfacher Losungen finden lassen. 
Die Optimalitat des Gesamtergebnisses ist damit jedoch nicht mehr gewahrleistet. v 
Gewdhnlich wird die Synthese in folgenden Einzelschritten durchgefuhrt: 

• Zunachst wird die Eingabesprache in ein internes Zwischenformat iiber- 
setzt, Es besteht aus Graphen, die den SteuerfluB des Programms (wie irn 
KontrollfluB-Graphen eines optimierenden Ubersetzers) und den Datenflufi 

4 engl. computer aided design (CAD) oder electronic design automation (EDA) tools 
5 VHSIC Hard ware Description Language 
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reprasen! ieren. Meist wird. ffir jeden Rnsisblock cin separates D a ten tiuB- Graph 
eiv.eitp-t. rie.r die lokalen Datenabhiingigkehcii widerspiegelt. Bei der Erslel- 
lonp, des Zwisdienformats werden opiivacrcnde Prograinmtronsformationen 
.dnrelieefiihrL Dies siud gewohnlirhe Uberset.zer-Optimieningen wic Konstan- 
tenpropap.ation. Elimination totcn Codes und gemcinwirneT Tcilausdriicke oder 
Sddeifenausrolien. 

Zusaixlirh konnen anch hardvare-spe/ifisdic TVansforniationcn durchge- 
fiihn werden. BeispielsweiM: versdjmilzi fine KontrollfluB-DatenfluB-Transfor- 
iijHt'iun [C^DWLJ^, Abschniu 5.7.3] mehrere Basisblocke, die cine bedingte 
ZnweiMuig rcpiasentieren. Dnbfi werden die DatenfluB-Graphen kombiniert, 
indem Multiplexer hinzugefugt werden, die den riditigcn Wert der VariabJen 
aurwalden. Dieser gmttere Dalenflutt-Graph ennoglicht spate? mchr boolesdie 
Optimierungen. 

• Die Al>hruf]*}fnivu(i (engl. scheduling) orrinel jeder Operation cincn Zo.itschritt 
(d. Ii. einen Takt) zn. Sie mutt vorhandene natenabhangigkeiten mid den vor- 
gegebenen KontrolifluB benir.ksidnieen. so daB der mogliehe Parallclitatsgrad 
moist rf-rlit besdira'nkl is1. Srhleifen nifisfion, wenn sie nicht ausgerollL wer- 
den konnten. setpientioll nbge.arboitrt weiden. Dcshalb wurden erweiterte Ver- 
fiiJiren' xiir Synlhe.se von Pipelines fiii Srhleifen entwic.kelt. Diesc werden in 
Absdinilt 4.3.3 vorgestcllt. 

Da die Abiatifplannng eigemlidi nichl ohne Berucksiditignng der zur Ver- 
fiifimp Fiehenden H« rdware- Wesson u en duichgefiihrt werden kann, werden 
versrhjedene Henrisliken ziim Sdi;il/.en der benoliglcn Ressourcen verwendet. 

• Die Bi irifyli Ifavt; vtnt Rcnovrcn. (enp I. allocation) legt die verwendeten Ver- 
arbeil uneseiiilK in n (anihivtctisrhe und Iop;ische Opcratoren). Spcichcrzellen 
(Register nnd RAM) nnd Yerhmd unpen (Bnsse) fest. In vielcn System cn wer- 
den diese and) voin Reimt/er voive^eben. Die Bandbreite der niogbdien Losun- 
een n-idtt von ciner rmivorsellen Veraj !•» H ungseinheil fiir alle Operationen 
(miiiL'nalrr Platzbedarf. aher secMicni iellc A usiuhrung) bis 211 cmcm eigenen 
Operator fiir je.de Operation (maximale ' Parallel itat, abcr se.hr holier Platzbe- 
darf). Wepen der fdJenden Mi hifadmnu niig der Ressourcen istdicse "direkte 
l-bersei-zung" !MRfl2] jedoch im allgemeinerj nidit sinnvoll. 

• lm n;u:l;sien Sehritl erfolgl die '/uonhnnio (engl. assignment) von Operationen 
v.\\ Opcri.i'K>iiM'iiil.'e.jt.en. von \ aria bier: ?.n Speidicrzellen nnd von Kommuni- 
kntioiier! v\\ Busseii. Die Ziioidnnng wird oft mil der Bcrciustel lung der Ros- 
soun en komhiniert. nnd definien die Strnkl ur der Schaltung, den Dalenpfad. 

« SrhlieBIidi wii-d ein Stivcrwcrk (enej. ronlrolle.r) synthetisiert, das die Aus- 
fiihrntir der O pet a lion en dnrcli die KomjxMienicn des DaUinpfads geniatt dem 
Ablanfplni; ss.( nerl. Dieses ist cin M(K>n - Automat, der in jedem Znstand (Zeit- 
sd, rit I ) eiji Slenerworl an den Datenpfad leit el nnd aus dem aklnellen Znsland 
nnd dcii Anscaliei; de? Datenpfads den Fojoez upland beredmet. 
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• Die Komponenten des Datenpfads und des Steuerwerks (auf Register-TYansfer- 
Ebcne) wcrden als Netzlisie, d. h. in einem textuellen Standard-Austausch- 
Format, das die Graphen reprasentiert, ausgegeben, 

Wir nennen dicscn Ansatz im folgenden Standard- High- Level-Synthese. Seine Allge- 
incinlicit und die vielen Freiheitsgrade erschweren die oplirhale Synthese fiir viele 
Anwendungcn. Allciri die Auswahl der anzuwcndcnden Programmtransformationen 
odor dicEinschninkungen bei der Ressourcen-Bereitstellunghabcn einen grofien Ein- 
fiuB auf das Synthcsccrgebnis. Dcshalb wurden bereichsspezifische Synthesesysteme 
(etwa spcziell fiir Prozcssorarchitekturcn) entwickelt, die bessere Ergebnisse als die 
allgcmein einsetzbaren Systeme liefern. 

Wcgen der durch FPGAs gcgebenen Moglichkeit, ohne hohe Kosten mit digitalen 
Sdialtmigen zu experimentieren, wurden auch Werkzeuge entwickelt, die verbrei- 
tctc Software- Program in icrsprach en direkt zur automatiscben Synthese synchroner 
SdiaHungen verwenden. Dies soil die Akzeptanz fur Software- Entwickler erhohen. 
Jedoch kann fiir eine effiziente Hardware-Synthese nicht ganz auf die zusatzlichen 
Komponenten dor Hard ware-Beschreibungssprachen verzichtet werden. So ist der 
Flachcubedarf und die Geschwindigkeit der erzengten Schaltungen meist nicht zufrie- 
denstellcnd, da nur einfacbe High- Level- Syn these- Verfahren verwendet werden. Z. B. 
fmdet im Iran sin ogrifier C Compiler [Gal95] kcine Mehrfachnutzung der Ressourccn 
ujid koine automatische Ablaufplanung statt. Auch vcr and crt der auf einer stark ein- 
gesch rank ten Teilmenge von C basicrende Ubersetzer die Scmantik der Sprache und 
benptigt zur parallclen Ausfiihning inehrercr Threads zusatzliche Sprachkonstrukte. 

3.2.2 Logiksynthese 

Die Logiksynthese verarbeitet Nctzlistcn weiter. Diese konncn entweder die Aus- 
gabe einer Iligh-Lcvel-Synthcsc sein oder direkt vom Entwickler eingegeben werden. 
Dazu wcrden graphischc Eingabcwcrkzcugc 6 ', mit dencn Schaltungskomponenten aus- 
gewahlt und verkniipft wcrden konncn » oder strukturellc Bcschrcibungen in einer 
Hard ware-Bcsch rci bit ngssprache verwendet. 

Die ■Nctzlistc wird zuerst technologicunabhdngig optirniert. D. h., es werden allge- 
incingullige logischc Transfonnationen durchgefiihrt, die den Hard ware- Bed arf oder 
die Signal vcrzogerung rcduzieren: Die anschliefiende techno logicabhdngige Weiterver- 
arbeitung geschicht spezifisch fiir eine bestimmte FPGA-Familie. Sie unterscheidet 
sich stark vom ASIC-Entwurf, da die Komponenten der Netzliste nicht auf Stan- 
dardzellen oder einzelne Gaiter, sondern auf die I^ogikblocke der jcwciligcn FPGA-* 
Archilektur abgebildct werden. Dabci werden einzelne Gatter und Flipflops auf Lo- 
gikblockc vcrtciU und koinpJcxere Operatorcn durch bereits optimierte Module aus 
einer Bibliothek fiir die cntsprechendc FPGA-Familie ersetzt. 

Im nachsten Schritt werden die Logikblocke plaziert und verdrahtet. Dabei konnen 
wcgen der begrenzten Vcrdrahtungskanale manchmal auch vollstandig plazierte 

6 engK schematic entry tools 
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M:lj;ijUti;*^ji nicht oder nur mit schr bohen Signalverzogerungen verdrahtet werden. 
VYt«;t-;ii ccr cxponentiellen Komplocitili got Bereclmungen kann die optimale Pla- 
zierimg und Vcrdrahtung nur mit lieuristisdien Methoden angenahcrt werden. Dies 
Fiihrt zu sehr langen Redienzeiten (bis zu inehrcrcn Stundcn fur ein FPGA auf einer 
<div t f\}cn Workstation) undiinvorliersa^baren Resnltaten. Um erne Verdralitung mit 
iiicdrigen Verw>gerunp,eri zu erhalten. irsnl' oft auf eine hohe AuslasUing dcr verfugba- 
im Lo*»jkblud:e verziditet werd<*n. Wegcn dicser Probleme werden Sdialtungen auch 
U;Jv.'cisc manucl) plaziert, um eh;e. Lohr.j-<: Bausteinauslastung mid kurzere Taktpe- 
rioden zu erreichen. 

!m Gegensatz zvirn AS)C-Entwurf isi fur FPGAs ein viel geringerer Aufwand zur 
Smixdolion dcr ScLaltungcn notig. Derm die Schaltnngen werden nidit in hoher 
Stricken hi — mit entspreehenden Kosten bei einein Fchler — gefcrti^t, sondern 
zimachst nur mit cinem FPGA £d.eFi.et. 1m Falle eines Fehlers fallen bei einmal- 
pwif/j aiv t niierbaren FPGA? 1 nur feriij^t: und bei rckoijfigurierbarcn FPGAs gar keine 
Materia Ikosten an. Die Hardware. c inm1aiion kann also weitgehend durch Testen im 
FPGA ersetzt we|den. 

Fur siruklurprogrammierbarc Beclmer wurden einige auf FPGAs zugeschnittene 
Hardware-Besdireibungsspradieji en 1 wicke! t, die vor all cm die gezielte PI aliening 
meJufacb vorkom mender Sdiahnnp;skomponenten erleichl-ern. Bcispiele dafur sind 
LOG (Logic Description Generator) [GKLM90] nnd PERLBl DC \BTM). Wie oben 
bci-cil^t crwaJint, ist dies jedoclj mir notig. wenn man eine sehr hohe Auslastung der 
FPGAs erreichen will. 



3.3 Strukturprogrammierbare Rechner 

Fur Keclincriuchitr.ktiirei). die prcigrMnmspezifisdie Ilardwarc-Untarct fitzimg durch 
kon fign rierbare, FPGA-basicrte Koprozussoren realisieren, hat sidi bisher keine ein- 
hrillidie Bezcidmung durdigcsetzt. Jm Biiglisdicii wird dicsc Recline rarchitektur 
moistens nadi einer glcichnamifcen Worksliop-Serie [BP93, BP94. AP95, PA96] 
(FPGA -based) Custom Computing Machine (COM) — siehe audi [Har95] — oder 
Programmable Active Memory (PAM) [BPYKfj] gena.nnt. Aufierdein wird noch der 
Btgrift ix.kortfiguiici'bare ArchittMvrY(r\ve.hi\el y der jedodi zur Verwech slung mit auf 
holieror Bbene rekonfigurierbarcn Redmern — ctwa ParaJleirechnern. mit variabler 
Verbindungstopologic — fiihren kann. VVir verwenden deshalb in diescr Arbeit den 
BegrifT siruktitrprogrammierbarc Rechntr (SP-Rcchncr), da er die wesentliche Ki- 
gcnsdiaft dieser Systeme — die Stru k I urprogrammi erring — enthalt. FPGAs stellen 
/Avar die hcutigc Implcmcnticrungstochnologie dar, sind aber uidit priitzipicll zur 
Strukti!rprogrammienr»i*r notig nnd sollten daher kcin Namensbcstandtcil der zu- 
"fthorigen Redinerardiilektur seln. 
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System-Bus 

Abbildung 3.2: Architektur eines strukturprogrammierbaren Rechners 
3.3.1 Wirt und Rekonfigurierbare Einheit 

SP-Recliner bcstchen aus einem konventionellen, mikroprozessor-basierten Wirt und 
ciner rckonfigwicrbarcn Einfieil (RE). Dicsc cnthalt ucben einem oder.mchrcren 
FPGAs meist lokalen Speicher. Abbildung 3.2 zcigt diese Basisarchitektur. Bishcr 
reaiisiertcSP-Rechner unterscheiden sich stark in der Anzahl, GroBe und Anordnuug 
dcr FPGAs und des lokalen Speichers sowie in der Realisierung der Schnittstelle 
zuin Wirt [Gric). Zum Beispiel ist bci manchen cine direkte Datenubertragung vom ^ tf ,j 
Hauptspcicher in deii lokalen Speicher dcr RE moglich, was bci anderen nur uber f.J ^/" : 
CPU und FPGAs moglich ist. SP-Rechncr wurden aiihand dieser Merkinale von Guc- 
cione [GG95a] und Hartenstein [HBK96] klassifiziert: Ncben kleinen Koprozessor- 
Kartcn ohnc lokalen Speicher (wie dem PRISM- Hard ware- Prototyp (AS93]) gibt es 
groBe rekonfigurierbare Supercomputer, die den Wirt nur als Vorrechner benotigen 
und fur einige Anwendnngen die Lcistungsfahigkeit aller anderen Parallel- und Vek- 
torrechner ubcrtreffen. Bcispiele hierfur sind Splash /Splash 2 [GHK+91, BAK96) 
und DECPeRLc [BBV93a, VBR+96]. Einige Architekturen setzen neben FPGAs 
audi FPIDs zur ftexiblcren Verbindung dcr FPGAs cin. Dies ist bcispielsweise beim 
Virtual Computer [Cas93] der Fall. Dessen stark verkleincrte Version, der Engineer's 
Virtual Computer EVC) [TCS94, CTS95), wird kommerziell von der Virtual Com- 
puter Corporation vertrieben. Diese SB US- K arte init einem Xilinx XC4013-FPGA 
und 2 MB lokalem SRAM wurde fur die praktischen Expcrimente in dieser Arbeit 
verwendet. 

Fine engcrc Kopplung von Mikroprozcssor und FPGA wird in cinigen Forschungs- 
projekten untersucht. Die Kopplung geschieht entweder uber den Koprozessor-Port 
des Prozcssors (mit dem FrGA auf dersclben Platinc) oder sogar durch die Integra- ) 
tion der beiden Eleincnte auf demselben Chip [DeH94]. 

Bci cinigen Architekt uren kann die RE audi direkt mit Peripheriegeraten kommuni- 
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ziorcn. 7.. B. kfnnen Splash 2 unci DBCPcRLe riirekl Vide.odaten von e.iner Kamera 
vcrarbeitejj oder an ctiju-.n Monitor ansgcben. Diesc Moglidikeilen, die aus dcm SP- 
Re.diner dn t-iii^ l. t nries Fy^tcm (zur Echl */,ei1 vei arbeitung) machen, wcrden in die- 
Kt-r Arbeit niclit naber beiraditet. .kdod. sind die vor<jestdlten Verfahrcn prinzipicH 
audi %m direklcn }Varbdtnn& von Oaten aus Periplicricgeratcn gecignet. 



3.4 Anwendungen 

In dicNCin AliM-hnilt diarakterisiercii wir '/iinaVbst die Eigciischaften, die darubcr 
ciii.sdieiden. ob Heicdmnngen oboi fiir die Ansfnhning in einein Mikroprozcssor (in 
.Software) "der in de.n FPGAs der HE (in Hardware) peeignct sind. Daraus ergeben 
Midi die Aiiu-uidiiiigst'i-bicto. in dcne.n SP-Rc-diuc-i bercils erfolgreidi cingesetzt wur- 
den. )in nadiMcn Kapiud verden dann Motlioden diskutiert, mil denen sich soldie 
Anwcnduii^cn iiui-oiuattech aus absiraklen Spezifikationen genericrcn lassen. 
KPdiedin«.M-Anwcnduneen wurden - antte.r anf de.n bercils crwahntcn Work- 
shops fiber FPCA Utid Cvstom Computing Machines — vor allcin anf den FPL- 
Workshop? (I ulo-1'royrinumuhlt Loya: and Applications) [ML91, GH92, ML93, 
11SD4, HG9G] vorgestellt. 

3.4.1 Mikroprozessoren 

Hetr;u;hU n wir zuerM die Ei»cnsebafici; licnti'UT Mikroprozcssoren: Sie bo.arbeitcn 
Paten imiiM J vwhHKt pemaB dm Bcfdden e.inet Maschineiiprogramins. Da der 
ausjM-fubnc MM in jedem Taki (iiu wcsenilidten olme zusatzbe.he Kostcn) wedi- 
m-Im kjiuii. sind Mikn,|ii-ow-.^rt n audi ffn sel.v ■hntmltnr Berednumgen (mit hating 
v.erhsdnden Bd< Id* i.) «;cci-nci . Dabci isi tk-r Rcfchlssatz des Processors fiir iypischc 
Anw< -nduiifi-ii opt in:i« n: AritbmriiM-.be mid h-risdic Opcralionon, die in gewohn- 
lichen PT-ogramnicii l.aulig jinfirc.u »;. konnen von dcm Processor divekt ausgefiihrt 
v.chUm. Tiir mJksi vorkommende Opt : alionen lohni es $>di jedodi nirht, spczi- 
dh fisnkiionali Linhciven ;,nf dun Processor /n in.plcmeiiiie.rcn. Sie musscn daher 
liinM-andlidi mil d<u vorhandeneii Masdiinmbcfchlcn rcalisicrl werden. 

3.4.2 Rftkoiilignrierbarfi Hardware 

Hir den cft;?.ienicr ; K:n>au: rckonfi«?nri( rbarer Hardware sind */wei Oharakteristika 
cnisdioidcnd, die wir iin foI^<*nden bclra< !»U*n, 

S p <:v. i c 1 1 e kom b i n a to r i yrhr Vu nk 1 i o n en 

hn Gopcnsaiz ; i: N'i:kroprozesM»rcii ' koniKMi {^*woljiilidic, nicbt- worl-ory-nliert r) 
FlH^As !x!icbi^(- h-i isfiu- rnnkiioiveii tliiokt in Hardware realisieren. Soldie Punk- 
; : .«3it*ii. die irld.: in- "!:c fdi.'s&i.i? rinesf Standhrd-Prfwessoi^ anfi nndieti nnd dun h 
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ein rein kombinatorisches Schaltnetz realisiert wcrden konnen, wollen wir im fol- 
genden spczielle kombinatorische Funktioncn nennen. Beispielc dafiir sind die fol- 
gendcn Funktioncn auf Bitvektoren: Gewichtsberechnung, Hamming-Distanz, Bit- 
Permutierung, Finden dcr ersten Eins, sowie fehlerkorrigierende Kodierung und De- 
kodierung. Sie wcrden durch spezifische Sclialtungen im Vcrgleich zur Software- 
Ausfii lining wesentlich bcschleunigt. Da sie aber eben nur selten in Programmen 
vorkommcn, lohnen sich die Kosten fur die Konfigurierung der RE nur in wenigen 
Fallen. Eine wcscntliclie Beschleunigung cines ganzen Programms kann also allein 
durch spczielle kombinatorische Funktionen kaum erreicht werden. 

Feinkornige Parallelitat 

Wcgen der obengcnannten Einschrankungen wird in den meisten Anwendungen eine 
weiterc Eigcnschaft der FPGAs ausgeniitzt: Alle Ilardware-Operatoren konnen par- 
allel arbeiten. Dies ist jedoch nur dann hilfrcich, wenn die Struktur der Berechnung 
eiiie massive, feinkornige Parallelitat ermoglicht und sehr regular ist, d. h. diegleiche 
Folge von Bcfehlen auf grofie Datenmengen an wend et. Denn fur haufig wechselnde 
Befchle miiBteii die entsprechenden Operatorcn entweder gleichzeitig in der Hard- 
ware allokiert werden, was die effektive Nutzung der FPGAs stark reduzieren wurde, 
oder ein Tcil der RE mufite haufig umkonfiguriert wcrden, was jedoch jeweils hun- 
derttausende Zyklen dauert. 

Daher sind solche Anwendungen besonders gecignet, die sich durch Pipeli- 
nes ausfuhren lassen. Denn wie beim VLSI-Entwurf ermoglichen Pipelines lei- 
stungsfahige Sclialtungen mit einem hohen Durchsatz. Bei der Realisierung in re- 
konfiguricrbarcr Logik sollten jedoch aus den in Abschnitt 3.1.2 genannten Griinden 
moglichst nur Bcrechnungcn mit einfachen arithmetischen, logischen oder spezi- 
ellcn kombinatorischen Operation en mit klcinen Wortlangen vorkommcn. Dies ist 
bei einigen Algorithmen der digitalen Signal- und Bildverarbeitung (z. B. Filter 
und Faltungen auf Festkommadaten, diskrete Cosinus- und Hough-Transformation 
[VBR + 06, BRV93b]) oder bei ncuronalen Nctzcn der FaU. Fur diese Aufgaben eig- 
nen sich auch die neuen wort-orienticrtcn FPGAs. Sie — oder eine grofiere Anzahl 
konvcntioneller FPGAs — ermoglichen es auch, arithmetik-intensivere Aufgaben wie 
die Berechnung einer FFT mit Glcitkommazalilcn auf SP-Rechnern durchzufiihren. 
Da Pipelines zum Entwurf effizi enter Sclialtungen sehr wichtig sind, gehen wir im 
nachstcn Kapitel naher auf Verfahren zur automatisclien Pipeline-Syn these ein. 
Einen hohen Parallelitatsgrad ermoglichen auch systolisch'e Felder, die eine Verall- 
gemeinerung des Pipelinc-Prinzips darstellen. In diesen Feldern fliefien Datenstrome 
in mchreren Di men si on en und in entgegengesetzten Richtungen zwischen kl einen, 
gleichartigen Prozessorelcmenten. Zum Beispiel verwendet eine der bekanntesten 
und erfolgreichsten SP-Rechner- Anwendungen — der Vergleich von mensch lichen 
Genomen [BAK96] — ein eindimensionales systolisches Feld. Es vergleicht eine neue 
Gen-Sequcnz hoch parallel mit einer grofien Datenbank bekannter Sequenzen und 
berechnet ihre Ahnlichkeit als "Editierdistanz". Diese Distanz entspricht der mini- 
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malen Zahl cor Muta1.ione.ii, die. noiig varan, mn die beiden Sequc1w.11 ineinander 
zu uberfiihrcw. Da das zugrujideliegwidc "Alphabet" der Chromosomal nur aus vier 
Elemental bc;aebt : lasscn sich auf einer RE stOir viele kleine Prozessorelcmente rear 
-lisicrcn. We.g«:ii dcr guten ParallcJisierbarkeit mid dor klcinen Wortlangen konnen 
Syr.eme zur MnFtwerkfiiniung und zum Veipjeich von Zeichenkctten (etwa zur Da- 
tenkompressioii) prinzipiel! gut auf SP-R.echncm impleinenticrt werden. 
Drswciveren wnrden SP-Rechner crfolgresch fur die Langzahlarithmeiik cingesetzt. 
Dies is=t kt:;n Widorppruch zu dcr oben<iiiw.:mm t Forderung nach kurzen Wortlangen. 
Dcim wnrden bit-scriclle Addicrci (ir.it emcr ef/ektiven WortUiuge von einem 
Bit) und pErallci-scrielle Multiplizierer iinplcroentiert. Ein Nachteil dicker Losung 
ist jedoch, datf bei der Ubertragung zwischen Processor und RE immer zwischen 
bit-parallcler und bit-serieller Datcmrepraejitation transform iert werden mull. 

3.4.3 Kooperation im strukturprogrammierbax^en R.echner 

Die mcistcn echten Anwcndungcn sind weder vollig irregular noch vollig regular. 
Dcshalb werden die geeigncten regularen Anteile auf der RE ausgefubrt, wahrend 
der Rest auf dem Wirt- lauft. Diesor st.euert aiich die Berechnungen auf der RE. 
Mil Hilfc seines Betricbssystems werden die PPGA-Konfigurationen auf dem Hin- 
tergrnndspcicher des-Wirts gespeichert, und brim Aufruf einer Anwendung -wird die 
RlTvom Wirt konfiguriert. Danach lauft ein Programm auf dem Wirt ab, das die 
Funktionen auf der RE aufrnft. Falls die Anwendung dies zulafit, konnen Wirt und 
RE auch parallel arbeiten. 

Dcr Wirl wird auch zur Speicherung der Anwendungsdaten gebraucht. Dabci erweist 
sich die Kommunikations-Bandbreite zwischen Wirt und RE oft als Flaschenhals. 
Deshalb mufi das Bcrechnungs/Konimunikations-Verlialtnis in der RE moglichst 
grofi sein. Da von der RE der direkte ZugrifT auf den llauptspeicher des Wirt nur 
langsani oder gar niclit moglich ist, wird dcr lokale Speicher der RE als Cache ver- 
wendet und dient in den meisten Fallen zur Speicherung von Zwischen ergebnissen 
oder Wertetabcllcn. Falls jedes FPGA e:r.r.n eigenen lokalen Speicher besitzt, ist so 
auch der vcrteilte, gleichzeitige ZugrifT auf inehrere Speicherbanke moglich. 
Der Kommunikations-FIasclicnhals tritt weniger in Erscheinung, wenn externe Da- 
tenstrome dirckt mit holier Bandbreite an die RE gekoppelt sind. Der^ Wirt mufi 
dann jedoch zusatzlich die Peripheriegerate steuern. Eine Sonderrollc nchmen auch 
SP-Rechner ein, die zu Uberwachungs- und Steucrungs-Aufgaben eingesctzt werden. 
Bei ihnen ist die RE direkt mit den Sensoren und Aktoren gekoppelt. Die Anforde- 
rungen an die Steuerung sind meist einfach, miissen aber in Echtzcit erfiillt werden. 
Dies ist direkt in Hardware effizicnt zu realisieren. Zusatzlich konnen die FPGAs 
Eingabedaten direkt vorverarbciten, bevor sie an den Wirt ubertragen werden. : 



Kapitel 4 

Verwandte Techniken 



Dieses Kapitel stellt bekannte Techniken vor, die fur die in dieser Arbeit entwickelten 
Ubersetznngsmethoden fur SP-Rechner relevant sind. 

Zuniichst diskutiert der nachste Abschnitt Ansatze z\u kombinierten Spezifika- 
tion des auf dcm Wirt ablaufenden Programms (des Software- Anteils der Anwen- 
dung) und der in der RE ausgcfuhrtcn Funktionen (des Hardware- Anteils). Danach 
erortert Abschnitt 4.2 Techniken zur automatischen Partitionierung einer Anwen- 
dung, in Hardware- und Software-Anteile. Abschnitt 4.3 ist Pipeline- Synthese- und 
-Optimicruugsverfahrcn gcwidmet, und Abschnitt AA stellt Vektorisierungsverfah.- 
ren fiir sequentielle Programme vor, die bisher nur fiir Vektor- und Parallelrechner 
cingcsetzt wurden, aber in dieser Arbeit fiir Hardware-Pipelines erweitert werden. 



4.1 Ansatze zur kombinierten Programmierung 

Die jneisten Anwcndimgcn fur SP-Rechner werden bis heute manuell entworfen. 
Dabei werden die Schaltungen fur die RE (Hardware-Anteil) mit konventionellen 
Entwurfswcrkzcugcn (siehe Abschnitt 3.2) unabhangig vom auf dem Wirt laufen- 
den Programm entworfen. Danach erfolgt die manuelle Integration der Schnittstelle 
zwischen Software und Hardware. Da dieses Vorgehen vom Entwickler sowohl Kennt- 
nisse im Hardware-Enlwurf als auch in der Software-Entwicklung erforde*t und au- 
Bcrdcrn zcit.aufwcndig und fehleranfallig ist, wird es hier nicht weiter betrachtet. 
Vielmehr stellen wir Programmiennethoden vor, die eine ganze Anwcndung, also 
ihrcn Software- und ihrcn Hardware-Anteil, kombiniert in einer hoheren Program- 
micrsprache spezifizieren. Sie ermoglichen auch Software-Entwicklern die Verwen- 
dung stmkturpiograminierbarer Rcchncr. Jcdoch sind die bekannten Verfahren nur 
fiir wenige Programme oder fiir sehr eingeschrankte Problemklassen sinnvoll einzu- 
setzen, so dafi sie bisher nur in Forsclnmgs-Prototypen implementiert wurden) 
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4.1.1 Sequentielle Sprachen 

Die Verwendung einer verbrciteten sequentiellen Programmiersprache ist fur den 
Entwickler am cinfadist.es, da das Program m zunachst komplett in Software auf 
einem Mikroprozessor getestet werden kann, bevor es durch rekonfiguiierbare Hard- 
y/are beschleunigt wird. 

Dies ist etv;a bei PRJSM 1 [AS93, Ath<>2] und PRISM-]] [AWG94] der Fall. Beides 
siiid volkstandig implemcntierte Prograiriwiicrsysteme fur SP-Rechner, die Standard- 
C ids Eingabespracbe verwenden und fur voin Program mierer definierte Funktio- 
iitiu Koprozessorcn genericren, die anf eine RE ausgelagert werden. W ah rend eines 
Koprozcssor-Aufrufs wartet der Hanptprozefi (Software). Das altere PRISM-System 
in hit fur die C-Funktionen eine einfache High-Level-Synthese durch, die alle Opera- 
toren in ein em KontroJlschritt anordnet. So werden nur kombinatorisdie Schaltnetze 
synthetisiert, die keiri Steucrwerk benotigen. Es konnen aber aucl) nur k)eine Fimk- 
tioneij init statisdi (zur Obersetzmig-zeit) ausrollbaren Sddeifen behandflt werden. 
Dies sind im wesentlichen die in Abschnitt 3.4.2 definierten spcziellen kombinatori- 
sdien Funktionen. Durch die Vcrbindung mit einer nadifolgcnden logischen Minimie- 
mug fur Xilinx FPGAs werden efJiziente Scbaltnetze fiir die Funktionen realisiert. 
Die Koprozessoren fiihren also in gewisse.m Sinne eine Bcfehlssatz-Brweiterung des 
Wirts durch, 

Dagegen sind die von PRJSM-IJ erzeugten Koprozessoren syndirone Sclialtungen 
mil Steucrwerk. So konnen auch beliebige Schleifen behandelt werden. Der Paral- 
lelhat Find jedoch durdi die Datenahhangigkeiteri der sequentiellen Eingabesprache 
Grerizen gesetzt. Es wird ein zwar spczialisierlcr, aber im wesentlichen immer noch 
sequent] elier Koprozessor generiert. Deshalb ist in jedem Takt meist nur ein Opera- 
tor akti v. 

Folglieh weiscn die Eardware-Koprozessoren bei PRJSM und PRJSM-1J nur in we- 
nipen Fallen genugend Parallelnat — wie in Abschnitt 3.4.2 gefordert — anf, urn 
trot?, der hohen Kosten fiir die Koiifigurieruug und die Kommunikation mit dem 
Wirt- eine Besdileunigung zu trim hen. Der Einsatzbcreidi dicser System c ist daher 
stark ehigcschrankt. 

4.1.2 Parallele Sprachen 

Enthiilt cine Eingabcspradie cxplizit parallele Konst-nikt-c, kann audi die ParallcliUit 
der ] -lard ware besser genutzt. werden. Dies ist bei den in diescin Absdtnitt vorgc- 
sielhen Verfahrei: der Fall. Jedoch kiiuj; ein paralleled Programm nidit. so einfach 
wie ein sclent idles in Software getestet werden. 

AuBerdcm legen die meisten parallelcn Program mi ersprachen ein l.iesl.immte.s Aus- 
fulmmgsmodcl! feKt. Da FPGAs generisdie J -iard ware- Rcssou rem zur Vorfiigung 
stollen, konnen sic. — je nadi Konfj&uriening — diese unLersdiiediidien purallden 
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Ausffitirungsmodelle auch unterstiitzen. Dies ist fur eine effiziente Implementiening 
spezieller Anwendungsklassen sinnvoll, schrankt aber die Vielfalt der moglichen Ar- 
chitckturen und den Anwendungsbercich der Verfahren ein. 

Bcispielsweisc spezifiziercn die au.f OCCAM [PL91] und der verwandten Sprache 
PROMELA [WOB93] aufbauenden Systemc die Anwendung als kpmmunizierende 
Prozesse. Da diese schon als relativ unabhangige Einheiten spezifiziert werden, bie- 
ten sie sich als naturliche Einheit zur Aufteilung in Hardware und Software an. Demi 
jeder Prozefi kann in Software und — imtcr besthnmten Einschrankungen — auch 
durch High-Level- Synthese in eincm Hardwarc-Koprozessor implementiert werden. 
Die cxplizit angegebenen Kommunikationskanale beschreiben die notigen Schnitt- 
stellen. Jcdoch mufi die Partitionierung vom Program mierer vorgegeben werden. 
Dicscr prozefi-parallele Ansatz ist vor allem fiir irregular koniinunizierende Tasks in 
den oben erwahnten SP-Rechnern fiir Steucrungsaufgabcn [WB095] geeignet. 
Im Gcgensatz dazu wird ein SP-Rechner bci der Programmierung in dbC [GM95] als 
SIMD-Rvchncr mit Wirts- und Direkter-Nachbar-Kommunikation betrachtet. Der 
Typ eincr vom Programmierer verwendeten Operation bestimmt, ob sie auf dem 
Wirt oder in den auf den FPGAs real isier ten Prozessor-Elementen ausgefiihrt wer- 
den soil. Die Schaltungs-Synthese eraeugt dann ein Feld von Prozessor-Elementen, 
die genau die programmspezifischen Operationen ausfuhren konnen. Dieser daten- 
parallcle Ansatz ermoglicht cine effektive Nutzung der Hardware, ist aber nur fur 
S1MD- und systolische Algorithmeh geeignet. Beispielsweise wurde cine Version des 
Gcnom-Veiglcichers in dbC implementiert. 

SchlieBlich implementieren Iseli et al. [IS93] einen variablen supers kalaren Prozessor. 
Dabei sihd die meisten Teile des Prozessors fest. Nur die funktionalen Einheiten wer- 
den programmspezifisch synthetisiert. Dann erzeugt ein konventioneller Ubersetzer 
Code fiir den Prozessor. Allerdings iniissen die Operatoren, die in dem Prozessor 
realisiert werden sollen, manuell ausgewahlt werden. 



4.2 Automatische Hard ware/Soft ware-Parti tio- 
nierung 

r Bei den oben vorgestellten kombinierten Program miermethoden wird die Partitionie- 

fj rung in Hardware- und Soft ware- Anteile entweder durch den Entwickler rorgegeben ^ 

oder durch die Sprachkonstrukte selbst feslgelegt. Eine automatische Partitionie- j j J 
rung ware aber sinnvoll, uin dem Entwickler diese Aufgabe, fiir die Kenntnisse iiber 
die zur Vcrfiigung stehende Hardware notig sind, abzunelimen. AuBerdem wiirde 
sie auch eine automatische Portierung bcim Wechsel auf einen anderen SP-Rechner 
oder bei eincr Umkonfigurierung der Hardware ermoglichen. 

Solche automatischen Partitionierungs- Verfahren wurden bereits fur eingebettete 
Systeme im Hard ware/ Software- Codesign entwickclt. Ihr Erfolg beruht auf der Er- 
fahrung, daB die meisten Programme einen GroBteil Hirer Rechenzeit in wenigen 
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mneren Scblcifeii vfcrbraudie.n. Diejor iterative Kern dcr Anwenduiig ist sehr re- 
gular (nr. m Absclmitl 3.4.2 gei.anntcn Sinn) mid eigne), sicli dalier — wctm er nicht 
7M koinpIracrL:- Operntioncn ciithiill - fiir eine Ha.dware-Bcschlcunigting. Der Rest 
des Progran.ms bcsicht ans sclien ausgefiihrten, irrcgularcii Instniktioucn, die besser 
.n S<,ftw :il c abgearbcitct werden. Die vt rsd.iedcnci. AnsiiUc unterschciden sfch nun 
iv, dcr Mclhodc, wie gecigncle Harriwaw-Kupnwrasorcii identifizicrt werden Dabei 
n.u8 dcr N„tmi dutch die erwailele Besd.leunigung immer itn Vcthaltnis zu den 
entslehendeu kosten fiir Konfig.n ierui.g nrid Koininunikntion betrachtel werden. 
Das Partilioi.ierungsziel bci cingeboucien Systen.cn ist., vorgegebene Lcislungsan- 
fordeiungen n.it. ......iinalen Kosten zh encid.en. Da die meisten Systeme sowieso 

trncn M.k.opiozc.s,sor odor -cont roller (-,ur Ansfiihrung ties Software- A ntcils) ent- 
linlte.n, sell d.e FunHionalitat so anfgeteilt xverden, daB ein miniinaler Bedarf an 
zusat*l.d.c, Hardware (ASICs odcr FPCAs) c„l.steht. Bin Bcispiel fiir cine sokhc 
Partinouiming finder, wjr itn COSYM A-Syslem [KHB93]. Eingabcsprache ist eine 
tun Zen berhn.-ungen erweilerte C- Variant*. COSYMA erkennt durch Profiling attto- 
inaitsd, lauf/.eitkritischeTeile des C-Programms nnd bestimmt einc Parlitionicrung 
die die vorgegebenen Zeitbcdiiignngcn cinbalt. Fine iterative Optiinienmg durch Si- 
vmloUd Annealing hcslimmt einc Ldsung mil. mfiglidut gcrit.gem Hard ware- Bed arf 
1-iir die ausgewahllci. Programn.teile werdeii n.it einom Iligh-Level-Syiilhese-Syslern 
Hai-dw;;re-Kopi-osK«soren gencriert, die daiin — flht.licli wie in PRISM tmd PRISM- 
II — vom in Software verbleibcnden Rest des Progran.ms aufgenifc.n werden. 
B< i dcrartigc, Vetfahren dauerl die genane Schatzimg des Hardware- Bedarfs fiir die 
vtelen bet radii ei.cn Parlitionierm.gcn sehr lat.gc. Sie kann jedoch durch die in IVG95] 
wrgcstcllle, wahrend der Partit.ionenu.g dnrchgcfiihrle mhvmcntdle Hardiuare- 
Srhctznvi) wcsentlich bcschleiinigl werden. 

Bci der Programn.iening von SPRedmern ist das Partitionicrtnigsziel jedoch 
die hochste Bcsdileunigu.ig fiir einc Amvendung bci Test vorgegebenen Hardware-' 
KesMtmccn (des jewciligen SP- Reclines) y.u crreichen. Jatitsch et. al. [JEO+94b 
JEO T 94a] vc. wei.den (-befalls C als Eingabespracbc t.nd sdiranken den Si.chratim' 
Jut die Parut.on.cn.ng ein, indoitt znetst Hardware-Kandidalen (inncrc Sdilc.ifcn 
Ji.d I iu.kiio.icn) definicrt ui.d dann diejenigen at.sgewiil.lt wcrdcii, die die groBte 
l!es< |,tc„n^,, ! ..g mvan.cn lasson. Da* it. |Woi«. & ] vnrgeschlagcne Partitionicrungsver- 
fal.ren bant ai.r dicsen Vcrfahicii anf : he. iicksicht igt aber .lie Komniunikalionskosten 
zw.sd.en Yt irl nnd Koprozessor-Karte genaucr nnd verwcndel ganzzahlige linearc 
Opt .....ernng (s.cl.e Anl.ang B). Beide Vcrfabren banc, jedod. atifdurch 1 ligh-Uvel- 
Synthe.se crzetigien sequent iellcn Koprozessorcn attf tmd errcichc.t dahcr wie l.e- 
rciis n.ehrfach ..rwilhnt - nur in wei.igcn Fiillcn cine fiir SP-Rcdw.cr aus.cid.en.le 
Besfihlcuingnng. Solcho Koprox.cs.soren sind cher fiir den Einsalz it. Ma.ss.-nproduk- 
ten gee.gnct, », denen stall 1-PGAs seln.ellc.c ASICs ...id ...oglkhst l.illi,.,- ( mM | 
dahcr audi langsau.cR-) Froze jsoren odcr Controller vcrwendet wenlcn. ' ( 
Da f von llaru-nstciu et al. [HB1I+96] vorgcschlagenc Vc fahren fiir Xpute^Systn,,,. 

verwendet w.e C'OSYM.A Profiling-Daten nnd Sin.ulated Annealing «nr Besli,',,. p 

en.cr Panitioincrung. Dabei wird cbcnfalli; die Bcschh-unigung ...axiuucri. 
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Einige Verfahrcn teilen den Hardware- Antcil auch in verschiedene Konfigurationen 
auf t zwischen denen zur Laufzeit dynamisch rekonfiguriert wird. Da die Konfigu- 
rierung hcutiger FPGAs recht lange dauert, lohnt sich eine Umkonfigurierung aber 
nur, wenn jede Phase lange genug dauert. Bisher bekannte Ansatze setzen daher 
eine manuelle temporale Partitionierung [HW95] voraus. Das System wird in wenige 
Phasen, zwischen denen zur Laufzeit imrner umkonfiguriert wird, aufgeteilt. 
Da die von unscrem Ubcrsetzer synthetisierten Koprozcssoren (siehe Kapitel 5) be- 
sondere Randbedingungen an die Partitionierung stellen, wurde fur sie ein neues 
Parti tionierungsverfahren entwickelt, das in Kapitel 6 vorgestellt wird. Es kombi- 
niert dynamische Rckonjiguiierung mit dynamischer Laufzeit- AuswahL 

4.3 Pipeline- Synthese und -Optimierung 

Da Pipelines fur eine cfiiziente SP-Rechncr-Prograinrnierung sehr wichtig sind (siehe 
Abschnitt 3.4.2) und auch unsere Koprozcssor-Synthese auf Pipeline-Sen altungen 
basiert (siehe Kapitel 5), werden wir im nachslcn Abschnitt zunachst deren Grund- 
lagen kurz crortern, bevor die weiteren Abschnitte Synthese- und Optimierungsver- 
fahren fur Pipelines vorstellen. 

4.3.1 Grundlagen der Pipeline- Verarbeitung 



Al 


A2 


A3 


BI 


B2 


B3 




"<C2. 




M 





^ t 

sequcntielle Ausfuhrung 



Prozessor 
4 
3 
2 
1 

^ I t 

parallel e Ausfuhrung ubcrlappte (Pipeline-) Ausfuhrung 

Abbildung 4.1: Pipeline- Prinzip v 

Die Pipeline- Verarbeitung ist ein weiteres Ausfiihrungsniodell neben der sequenti- 
cllcn und der parallclen Ausfuhrung, das nicht nur im Hard ware- Rntwurf, sondern 
auch in viclen andcren Bcrcichen der Informatikeingesctzt wird. Es wird von dem 
deutschen BegrifT "Flic Bband- Verarbeitung" eigentlich besser gctroffen: Die Bear- 
bcitungsschritte vicler gleichartiger A lift rage werden uberlappt ansgefiihrt. In je- 
der Pipcline-Stufe wird immer dcrselbe Schritt durchgefiihrt, und jeder Auftra£ 
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durehlaufl alio Sinfvn in der jileichon Reihcnfolge. Abbildung U stellt. die sequcn- 
t iellc, parallele und iibeilapple Ausfulirung von vier Auftragen (A bis D) mil je drei 
Bearbeitungiischritl on einandcr gegeniibcr- 

Die gesaiiile Bcarheitimgszeii der Auftrage ist (wegen dcs Fiillens und Leerlau- 
fcns di-r Pipeline) el was 'anger ids hoi tier parallelen Ansfiiltnmg, abe.r wesenllich 
kiir/er border sequent iollen Ausfiilmmg. Denn naeh dem Fullcn sind immcr allc 
Pipeline- St ufen aktiv; dor Parallelilatsgrad ist (asympiol isch) gleir.h dor Anzahl der 
Stufen. Dieser (W;a\ wird hoi der Yerarbeit ung groBer Daleuslromc in Bardware- 
Pipelines. z. B. in ein em Sigiialverarhe ilungs- ASIC, nahezu crreicht. Konneii jedoch 
AUtihipifh itt n zwisdn-n auft-jiit'iudcj folgemlen Anftrajun (d. h. Bereclinmigen) auf- 
treion. durfen sie nicbl iiherhippon, und dor theorotiseh inoglichc ParallelilaUsgrad 
oiner Pipeline wird kainii eneie.hl. Die? ist etwa bcim LU Jchlspipt lining in cinem Pro- 
zessoi del FalL l>ei dem di< Pha*eii der Bcfchlsansfiihrmig iiberlnppt worden. Dcnn in 
gewolinlichem Masdmiencode fiiliren Abhangigkeilen haufig zn einer Unlcrbrechung 
do? Pipeline- St romcs. AnBerdeni benotigen nirlit alio Bofolile alio. Pipeline- Slufcn zur 
Ausl'uliruug. w;ts in uni ei>e.hiedliehen Ausfulmmgszeilen result ierl. Dicse Konfliktc 
musson in der Hardware erkannt odor von dor Software (etwa dnrch zusalzlich ein- 
gefiigio u Ieere v Uefehle (NOP*) ini Maschineneode) vcrhinderl wcrden. Bei supcrska- 
laren Prozossoren komnii no oh die Vorwaltung versrhiedenor funk lion a lor Einheilcn 
mil untersehiedliehtii Anmihrungszeilcn hiiissu, was don Einsalz komplizicrler Ver- 
fahren zur Befolilsa nordmmg erfordert. uni cine ehVktivc Nulzuiig der Pipeline zu 
crrcichen. 

AnBor in Hardware-Pipelines und behn Befehlspipelining wird das Pipeline-Prinzip 
auch in Wklvrrtclmt-rw ausgeniitzl. Auf diese gehen wir in Absdinitl 4.4 naher ein. 

4.3.2 Synthase aiis cJat.en-paraHelen Programmer! 

Cewohnlieli werdeii I b.rdwj.n - Pipelines inauuell entworfen odor auS DalenfluB- 
Dai-sulbmgrii. (iie bereii* die fvifukuir doi Pipeline ropriisenlieren, genericrl. 1m 
(.'ej-'onsaiz zu diesen \Vi j;.ltH-n verwendol die von ("ineeiono fiir SP-H^rhner cnl- 
v. ickt he Meihode !(."■; i n (-K IM:/,. <;<;<*5bj (hilctt poniUt les ( \ also oino htiherc Pro- 
;;r;.nimierspra<iie. /ti! Pij » !i in - Speyilikr.1 ion. Die Prograinmo diirfen jt^loe.h keine 
SeliUifen. Mindorn nnr bed ingle Amveisungen ontli a It on. 

'/.in Soliailnngs-Syiii .hose wird itnr dent Min*:abe-Pr*»graniin zunaYhst ein DatoufluB- 
^ iiapli ^eiu riert, indom fiir jede Anwrisung ein Operator erzengt wird (diroltlo Uhor- 
M-T^ntj;:)- Dazn wenlejj die l)«ieii?ihh;:ngi^koii.ei) der Anweisunj'en analysirrt- t nindio 
Wi khii|>fimg der Oprniloren yn hesi imini-n. Bedingle ' A nwoi.su nv.oii weidm wie ln*i 
• In Koniro1llli:tt-D;U-e;ifiiiLl-M raiisformaiioii aus Abschnitt X.'J.I dnroh Multiplexer 
r< ;Jisi( n. ]/; t ;ilK Ajjwris'.in;:* !; des ProjM anuris auf \Vkl.orcn x d<'linierl sind. kniirieii 
sie in einer Pipeline Jiiisgefiihri w( rdon. So konnen aueli zusiii zlirhe I'tajix ndei 

- ) i ii r win: * if r . ! M*p n : i i V /.* ' ot i-A*. :'y : s e ■ :y n • Hi r t h* d'nn ( mUm n't > l\ h! vn v. < • i •« I r i In A 1 r.) 1 ■ i > ■ m 
f;i;.f.(-r! wir inn jotioeii riijifr. 
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Scan- Operatoren, z. B. ADD -SCAN oder MIN-SCAN verwendet werden, die fur jeden 
Anfangs-Teilvektor ein kumuliertes Ergebnis bcrechnen. Denn diese Operatoren las- 
sen sich in Pipelines leicht. realisieren, indem das jeweils aktuelle Teilergebnis in 
einem Register gespeichert und zur Weiterveraxbeitung im nachsten Pipeline-Takt 
ruckgckoppclt wird; Aus einem DatenfluB- Graph en wird schJieBlich eine Netzliste 
gciteriert, indem die Operatoren mit Elementen einer Modul-Bibliothek instanziert 
werden. AbbiJdung 4.2 zeigt ein Beispiel fur ein Programm in daten-parallelem C 
und den daraus erzeugten Datenflufi-Graphen. 3 



float yCSIZE]; 
float z [SIZE]; 



y 




i; /* [i, l. l. l, i,. 


..3 


*'/ 


y 




add-scan(y); /* [1, 2, 3, 4. 5,. 


-.3 


*/ 


2 




x; /* Ix, x, x, x, x, . 




*/ 


2 




nul't-scan(z) ; /* Lx, s 2 , x?, x 4 ,. 


-.3 


*/ 


2 




y / z; /* [1/x, 2/x 2 , 3/x?.. 


r-3 


*/ 


y 




mult-scan(y) ; /* [1, 2, 6, 24,. 


..3 


*/ 


y 




y + 1; /* [2, 3, 7, 25,. 


-.3 


*l 


2 




y * z; /* [2/x, 6/x 2 ,. 


-.3 


*/ 




<*) 



2 

(b) 



Abbildung 4.2: Daten-paralleles C-Programm (a) und DatenfluB-Graph (b) 

Die Pipeline- Ausfuhrung hat rnehrerc Vortcilc gegenuber einem scqucntiellen Kopro- 
zessor, der dicsclbc Funktion ausfuhrt: Die Operatoren werden parallel ausgefuhrt, 
und die Sohaltiuig bendtigt durch Wiederverwendung von Eingabewerten und Zwi- 
schcncrgcbnissen eine geringcre E/A-Bandbreite. Und im Verglcich zu einer STMD- 
Arehitektur werden fur N-facbo rarallelitat nicht N universelle ALUs, sondern nur 
N feste Operatoren fur die N Stufen der Pipeline gebraucht. Da nur die in jedem 
Schritt tatsachlich benotigten Operatoren instanziert werden mussen, werden die 
begrenzten Jlardware-Rcssourcen einer RE sehr gut ausgenutzt. > 
Allerdings hat das Verfahren auch einige Nachteile: Die Scan-Operatoren wurden 
spcziell fur die Pipelinc-Synthesc entworfen und mussen von einem Entwickler neu 
erlerul werden. AuBerdem kann mit dicscr Mcthpde nur der Hard ware- An teil einer 
Anwcndung spezifiziert und generiert werden, wahrend die Ansteuerung der Pipe- 
lines und die Kopplung mit dem Wirt manuell implementiert werden muB. Und 
die Programme konnen nicht dirckt auf dem Wirt getestet werden. Deshalb ist auch 
diese Methode fur Software- Entwickler nicht einfach und allgemein genug einsetzbar. 

3 Man beachtc, daB in der Arbeit von Guccione die unrcalistische Annahmc getroffen wird, daB 
auch Glcitkomma- Operatoren in rekonfigurierbarer Hardware implementiert werden konnen. 
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4.3.3 Pipelining in der High-Level-Synlhese 

Wie in Absdinitl 3.2.1 bcrcits erwahnt, wurden fiir die IHgh-J^evrJ-Syiithese erwei- 
terte Ablaufplanungs- Verfahrch onuviokelt, die die Syntbcse von Pipelines fiir Schlei- 
fen ermoglichen. . Diese Verfahren vcrfolgen cine almlidie Ziclsetzung wie unscre in 
..Kapitcl 5 vorgestellle Synthese-Methode. 

Hollmann |]JoIR\ HKO?>] stelli ein Verfahren sunn Pipelining allgomeiner WHILE- 
und K()R-Sch)eifon mil dalenablifmgigor ll.erationsy.ahl vor. Der Sehwerpunkl dieses 
Ansfitzis liegt. anf der Opliniicrung von Scblcifcn mil vielen bedingten Anweisun- 
pen dutch speculative Aiicffihruiig: Die Pipeline wird fiir den wahrschcinlidisten 
Fall optimiert, wiihrend fiir die sehener auftrelenden andcrcn Falle eine liingcre 
Ausfiihrungszeit durch evenuieli notwendigo Korrckturen in Kanf genonunen wird. 
Dei dicsem Verfahren wird jedodi keine gennue Analyse der Abhangigkciten von 
Jeldzugriflen (wie in voktorisiemiden Dbcrscizern fiir Vektorrechncr) vorgenommen, 
so dafi Scbrcib-nud l*.sefciigrifli: anf cin Feld in einer Schlcife numerals voneinander 
alduiugig betrnditol werden inussen. So konncn insbe.sonde.re fiir FOR-ScLIeifen mit 
vielen Feldzugriflcn keine Pipelines synthetisiert werden. 

4.3.4 Register- Vnrtcilung.und Optimierung 

In oilier Hardware-Pipeline f ASIC oder FPGA) muB die Signal vcrzogening klcin 
und fol r licb die erreiehb.-re Taklfrecpien?, hoeh soin, um cinen hohen Durchsatz zu 
en-eidien. Deshalb werden Zwiselienerpehnisse in Registern gespcichcit, urn die Ope- 
raioren ?.n cntkoppeln und so par*. Hole Bcrechnungcn vw ' cmidglidien. Die Register 
mii.-sei. je<lodi riditig verteilt sein, urn die Korrekthcit der Pipeline zu gewahrlei- 
Mru. Dies wird ditrdi deji im' mieh.sirn Absdwiilt beschriebenon Ri$iMir*Aitsglcich 
erreidn. Danach werden die Verfahren Manning und Pipdhnug vorgeslelll, mil de- 
urn dor Durrhsatz eincr brrcils korrekten Pipeline crlioht werden kann. Zuletzt 
• Tortem wir MoglichkcileiK den Bed;.rf an koiiibinaiorisrlicr Logik in einer Pipeline 
?a\ reduziercn. 



Re^jster-AusgJeicb v 

Ein Htgister-Avsffhich < [Oao8<h (^ic!^ einer Pipeline isl. notwondig. xeenn die Zahl 
der Register auf versrhiedriien Pfaden ?wisehen eincin Eingang nnd oineni Ausgang 
der Pipclinc^ntcrcdiiodiid! isl . die Chaining also nichl korrefcl svnd.mnisierl. isl.. 
I mer der Aunahmo : dal< jeder Operator borcils ein Register zur Spcidn t •„,,,. seines 
-Aiis r .ab(.wcri.es enlh;ill : isl dies in dc in \U ispiel-Craphen aus Abbildim*.'. t.;>(l,) der 
Fall: Die Kane durcli de?) Divisions-Operator enthalten drci Re-isi.T. ,)ir ubrigei) 
vier. Deshalb mi:ssen weik-iv He-isier in die Pipeline eingefiigt wr.d-n. dai.,ii7lie 
nchtipon Werte zum rirhiigeu Zeii puiik? an den OpcraUircii anli. ^ n. Dies kann 
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in i. 




ifl id 





Abbildimg 4.3: Ausgeglichene Datenflufi-Craphen 
aber an verschiedenen Stellen der Pipeline eeschphpn 

Retiming und Pipelining 

Retiming ist der Sammelbegriff fiir eine Reihe voji VerfaWn v„r n - 
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vorhandcncr Repisior fiber Opcratoren hinweg wird die Verzogerung dcr Schal- 
umg mid die Xahl dcr hv-jister vrriindert. Das an cinem speziellcn Knotcn, dem 
ScInntistdlc-n-Kvotrn, beoba< ht bare cxternc Verhalte.n einer Schaltung bleibt da- 
Lei miverandert. Beispielswcise konnen die beiden Craphcn in Abbildnng 4.3 durch 
Ketiming incinander iibcrfiihrt werden — ihr or tonics Verhalten ist identisch. Die 
Werlc interner Regitfer die ja verschubeii werden koimeiu andern sich aber. Folglich 
diirfen Sdialt migem boi denen interne Register dirc-kl initialisiort oder ausgelesen 
werden , nir.ht durch Retiming venindert werden. 

Die wichtigste Version Retiming minimiert die Ver/ogerung cincr Schaltung, 
maximiert also ihrcn Duirl.s;^. .Mil oil. or anderen Wnsicui kaim ;iber audi die Zahl 
ilrr insgosamt benolipten Register bei vorgegeboner Vemigening inininiicrt werden. 
/V Innvq kann a Ik Soi.d« rfa J! des Retiming mil rnohreren SdinittstcJlcn-Knoten be- 
tradilel werden. Audi hier wird dcr fur dio beistungsfaliigkcit entscheidende Durch- 
>.a!z cincr synrhronen Sd,aitnng. erhoht, uud. dio extern beobachtbare Funktiona- 
litat bleibt e.rV.lu-n. h,i Ogensat* yum einfadien Retiming darf jedoch durch das 
ICinfiipon veiterer Pipeline- Si nfen die Synch ronisat ion (also das Zci I verhalten) der 
versehirdenen SdmiiiM.c)lond\nolen imureinander vcriindert werden: Die Zahl der 
Tnfcte zwischon dojjj Dee.hm nnd dom Ende oiner einzelnen Boredinung — also die 
Latcn/ dor Pipeline — da if mcI» vergroBeru. 

Beim Pipelining mii-sen anf alien ayyklisrhen Pfaden ywischen zwei Sdniiltstellcn- 
Knuten (oinem Kingang mid einem An^n» del Sehallung) gJeich viele Register 
dngefiigi werden. Nm daim lie-en ynsairmiengehoiei.de Werte wcitcrhin 'Kiiin'glei- 
dien Zehpunkl an den Operaioren an. Da beliebig viele Slufcn eingefiigl werden 
konnen. isi dor Dnrrhsm-/ ajyklischer Pipelines nnr dnreb den Irmgsamston Opera- 
tor begrmzl. Dessen Dmrh^u kann jodoch audi dmch znsatzlidie interne Pipcline- 
Sl 1 1 fe.n erhoht werden. 

Kmhah der Sdialliin«--r:iapli jedoch Zyklem so dnrfen innerhalb dcrselbcn koine 
KV»icier eingefiigl werden, da dies c ji ( . K.mhi ionalii jit veiandern wiirde. Die Zyklcn 
Kesdirankoii also don Dnivl-a::, <iner w.ldieij Pipeline. In Abbildung 4.3 kann bei- 
FpielMveise nnr der Dm W^;.; > der nid.t i nYkgekoppclten O-H-ra^aen (lurch zusaUli- 
die interne Pipeline-Si ulen erhoht werden. v 

/ MNT " ! ' 4 ! s1f Ih rtu '■>H-nf;dl.- anf Pipelining. |, ;iS iertes Veifahren znr nii< l.traglichcn 
Oj^indenni" von FPf; A-Srhah unp n v«r. Znr Synihese oplimaler l'ipe.li.Kis sollte 
•eded. von vornhereiii day Pip.. lining „„, ( l^ lt RogiM ei - Ans-Joieh kombiuiort werden. 
hed t;; lb erweilcrn wit in Ab.M-| m iir UA:> das Verfahnm von Can" so, daU es am i. 
n'CA-Pipeiines mil \v >:i!>!. . Oper;.iorver-*oeening ansgleiehi n.ui y y lt l.xeil.i,. dmeh 
Pipelining eine vor .M r rbone \ er/o-or imp (d. h. Takl freemen*) erreirh).. Dalmi. wird 
(iii Xah! dor xnsaijdieh einptfii ? iei-, FPCiA-Flipflops minimierl. 
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Minimierung kombinalorischer Logik 

Der w B ,t arf r" !l 0n ; bi I nal0 I r f he l r Log* ,a8t »>« Pipelines im allgemeinen nicht 
- we be, der H.gh-Levcl-Synthese - durch Mehrfachnutzung der Operatoren re- 
duz.eren, da alle Operatoren gleichzeitig aktiv sind. Die einzige MMichkeit zur 
M.nnn.erung besteht darin, die durch bedingte Anweisungen iw^STL^ 
nat.ven Pfadc „„ Datenflufi-Graphcn zu optimieren. Dennlon diesen Pfaden wfrd 
jmmernur emer durch einen Multiplexer ausgewahlt. Wird beispielsweise in einem 
Pfad (X+Y) u„d , m anderen Pfad (X - Y) berechnet, so konnen der Addierer Z 
Sub rah.erer und der Multiplexer durch einen kombinierten ADD /SUB Operator 
ersetzt werden. Das A uswahl signal des urspriinglichen Multiply b JmT^n 
d.e R,nk k» des ko.nb.nicrten Operators. Auf diesen, Pri„ zip basierende, komX 
z,ertere Verfahrc. zur Pipeline-Mimmierung werden in dem PISYN-System [CW91 
Kapitel 3] angewendet. ' l^wyi, 

4.4 Paralleiitat durch Vektorisierung 

Dieser Abschnitt crlautert znnachst die Architektur und die speziellen Befehle von 
yektorrechnc.,,, d,e Daten ebenfalls in Pipelines verarbeiten. Der S^wernunkt des 
OektteSn'ef ^ Vektorisierung se q ue,,tie„er Prog^e t 

4.4.1 Vektorreclmer und Vektoranweisungen 

In Vcktorrcchnern wird tin hohcrer Durchsatz crreicht, indem die gleichen arithme 
t.schcn Operat.onen aufcincm Vektor von Daten ausgenlhrt werde ESondepT 
pdjncs). Dazu warden spezie.le Vektorbcfehle verwendet, die garant eren tefne 

d\r £?n W1S ; " , B r Ch,1Ungen bcStehen - D " rch verkeUen^ 
der Vcltorcm he.ten lasscn s.ch bei manchen Vektorrechncm liefere Pipelines er 
rechen. Be, M.lii-Vektor-Rechnern [HX88] konnen sie uber Schiebere^r ' ^ 
bel,e b] g ? ,, vc,,we,gten Pipelines vcrkettet werden. Dadurch entstehen aLicheX 
t,rn crungsprob erne w.c.bci Hardware-Pipelines: Da jeder Operator eine konstante 
Za^,l .nterncr P,pcli„e-St„fen hat, n,uB eine vorgegebene PipeLe durante so 

den S S d 1/ ar jGden ^T t0r aUCL ^^endPipeline-StufenrrS 
p k ™ " ,cLt ' mmer m5 S ,,ch ist > kann au <* nicht immer in jedem Takt 

R c^Sfn , T r WCrdC "- 80 hSngt dCr DurChsatz auch Wer- trot7drch i 
A In IS JSlSd P T Taktf ^" e - ~ ™ ^Peline-Optinnerungen 

beUrieben 1 P'P^'-Opt.m.erungsverfahren fiir Multi-Vektor-Rechner 

I nio,.r r0 T mmiCn,ng V °" VektOTrechn <*» werden vor allem imperative Program- 
^sprachen verwendet, diejn n spezielle Vekloranveisungen erweitert ZZ. 

5 engl. chaining 
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Diese.Anwdsungcii wenden bekannle Opera torcn auf Vektoren an mid konnen di- 
rekt in die ciitsprecbcnden Masdnijenbcfehlc des Yektorrechners iibersetzt werden. 
Z. B. bczeidmet in FOHTRANPO A(I:J:S) alle Elemente des Vektors A von I bis 
J mit der Sdirittweite 0 S. Wird S weggelassen, so gill die Schrittweitc 1. Eine Vek- 
loraddilion sicht dann bcispiclswcisc so a us: 

A(l:50) = B(l:50) + C(l:99:2) 

Implizit steUt jede Vektoranwdsung due parallele Scblcife fur die Zuweisungen an 
die sclcktierten Vcktorelmirnu-ciar. Uber die Rcihenfolge der Zuweisung wird keine 
Armahme gemachi. jedocb gilt die "fetch before store" -Semantik. Sic besagt, dafi 
zuerst al)c benotigten Wertc gcladen werden, bevor ein Ergebnis gespeichert wird. 
Daneben gibt es noch spezielle RtduhUortf-Operatcrcn, die aus einem oder mehreren 
Vektoren einen sk;Uaren Wert bcrecljiien. Dies sind et-wa das Maximum MAXVAL(A) 
und die Summe SUH(A) ernes Vektore. oder das Skalarprodukt DOTPRDDUCT(A ,B) 
zweier Vektoren. Derartige Anwcisungen wcrdcu audi in Programmiersprachen fiir 
SIMD-Rechner verwendet. Sie entspredien den Sccn-Operatortn des daten-parallelen 
C aus Absdmitt 4.3.2, Hefern aber mir ein Ergebnis fiir den ganzen Vektor. 
Audi die anderen daten-parallelen C-Anweisungen konnen als vercinfadite Vek- 
toranweisungen bctracfoet werden. Da ZugrifTe mit einer Schrittweite grofier eins 
dnrch einen spczi ell en STRIDE- Opera tor und eine Zuwcisung an einen neuen Vek- 
tor (mil Schrittweite eins) renlisiert werden mussen, definieren Zuweisungen an einen 
Vektor imincr alle Elemente neu. Folglicb ist eine Verkeltung der Operatoren immer 
moglidi, ohne dafi cine gemuicre Analyse auf der Ebcuc einzelner Vcktor-Elemente 
erfolgcn nmB. Nidit verkettete Vektoroperatmnen waren in einer Hardware-Pipeline 
audi niclil inoglicb. da in Regisi-crn mir ein Wort als Zwischenergehnis gespeichert 
werden kann, aber keine grofien Vektorrcgistcr zur Zwisclicnspcicherung ganger Vek- 
toreji zur Verfugung stehen. 

4.4.2 Automatische Vektorisierung 

Neben der direktcn Vcrwcndiing der Vck toranwoismigen wnrden zur Vereinfa- 
cljung der Program mi erung und vor a Hem zur Wiederverwenduiig exislicremier 
Programme audi Ubersevzer zur auiomvlischen Vektorisierung argnvniicller Pro- 
gramme entwickelt |AKS7 S ZCJj}. WolPft). Sie ersetzen Sdiloifcn, die Kclder (Vek- 
toren) bearbeitcn. durdi scjnaraisdi aquivalcntc, parallel ansfiihrbare Vektonuiwei- 
sungen. Diesc Vektorisienm^ ist ein Spezialfall der Progranmi-Paralldisienmg, die 
fiir Mnltiprozessor-Systeine eingtaaiizl wird. Automatischc Mellioilen konnen jedodi 
nidit immer die in einem Programm implizit vorhandene ParallcliULt erkemien. Erst 
recht konnen sie keinen besseren. fiir einen Vektor- oder Pai*alldm-Jmeri;rd^n<;tcren 
Algorithmus erzeugen. 

c engl. stride 
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In einem scqucnUcllcn Progranim ist eine lineare Reihenfolge der BefehlsausfGhrung 
vorgegeben. Djcsc Reihenfolge ist nonnalerweise restriktiver als notig, also uberspe- 
zifiziert. Deslialb wird bei der Vektorisierung versucht, die durch Datenabhangigkei- 
tcn vcrursacl.ten semantisch relevanten Reihenfolge-Einschrankungen zu ermitteln 
Die anderan, irrclcvant.cn Einscl.rankungen diirfen ignoriert werden, so daB die Rei- 
henfolge der Befel.le n«r noch teilweise festgelegt ist. Unter Beriicksichtigung dieser 
part.ellen Ordnung werden die Schleifen des Programms dann so umgeordnet, daB sie 
in Vekloranweisungen umgewandelt werden konnen: Bei der Vektorisierung werden 
im cinzclncn die folgenden Schritte durchgefiihrt: 

Schleifen-Transformationen 

Diese Transformationen auf Qucllsprach-Ebcne sind nicht unbedingt notig konnen 
aber d.e bigeb.iissc der nacl.folgenden Vektorisierung verbessern oder d'iese erst 
ennoghchen. Wir stellen hier zwei Transformationen vor, die im weileren Verlauf 
dieser Arbeit benotigt werden: 

Die Schlcijen-Aufteilung 7 teiit das von der Schlcifenvariable durchlaufene Intervall 
in einzelne Abschnitte (Blocke) auf, so daB mehrere kleinere Schleifen enstehen. 
bind allc Blocke gleich groB, konnen sie in einer neuen, auBeren Schleife zusammen- 
gcfaBl werden. Die Indizes im Rnmpf der inncren Schleife mfissen dann cntspre- 
cliei.d angepafit werden. Diesc Transformation kann durchgefuhrt werden, um eine 
bchleife an d.e Langc der Veklorregisler auf einer Maschine anzupassen oder um 
cine Abhangigkeit zu eliminieren. Eine Schleifen-Anfteihmg ist immer zulassig da 
die Ausfuhrungsreihenfolge der Iterationcn nicht geandert wird. 
Im Gcgcnsau dazu werden beim Schleifen-Auslausch* innere nnd fiufiere Schleifen 
vcrtausdii, die Reihenfolge andert sich also. Wcgen moglicher Abhangigkeiten zwi- 
schen der, Anwe.sungcn ist diese Transformation naturlich nicht immer zulassig 
Dcshalb musscn vor ihrer Anwendung beslimmte Bedingungen [ZC91] uberpruft 
werden. Der Schleifen- Austausch wird beispiclswe.isc verwendet, um mdglichst lan R e 
Schleifen zu vcktorisieren. 5 

Normalisierung v 

Nach der Transforinalion werden die (eventuell geschachtelten) Schleifen durch die 
folgenden Schritte normalisiert: 

• Schlcijcnvariablcn-Svhslilvlion: Suche Variablen, die in jeder Iteration um 
cmcn konstanten Wert crhoht oder ernicdrigt werden. Sind mehrere solche 
bchlcijcnvanubkn (oder Indiiktioiisvariablen) vorhanden, so ersetze sie durJch 
eine Hai.pt-Schle.fenvariable. (Dies ist bei FOR-Schleifcn die im Sclileifenkopf 
definierte Variable.) 



7 cngl. loop sectioning, strip-mining 
engl. loop-interchange 
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• No'ihaliricwnc fhr SchIHfcnvtni.fi Urti: Subs lit mere die Srhlci fen variable 
(lurch cine nem Variable, die init dem Wert 3 (odor 0) initialisiert und in 

-jeder Iteration urn 1 ink rem eh tier! wird. 

• Avytkiicfo- Fall mnj: Krsei/e im Srhleifenriimpf Konstantcn und Variablcn, die 
Zwischc.iiergebijissc spcidiern, durcJr ihre Wertc. 

• Korvi a l-yu rv ?. /. der I ?< dcxau t driiH; r : \ V rv i 1 1 Th cl i c Vv Id z u gri ffc (fails i n ogj ieb ) i n 
Ai^iririirhc. di<- iiur linear von d< v, Sr\iU ':l\ ux;.\ i;d>len sowie von auBerhalb der 
.Sc.lileife dennienen Variablen abiiangen. 

Abh.3ngjgkeil.s- und Alias-Analyse 

A\y niiebsies werden die Drilenabliant'i^keiieii der SdJcifcn des Progranims analy- 
ser!. Ms gibi drei prinzipielle Abhangigkehs-'j ypen: 

• Echtc Abhcvtiigktit: Anweisung B liEngi edii von Anweisimg A ab, falls eine 
Variable (oder Speidierscellc) in A definierl (pesc.hrieben) und — olinc zwi- 
sclienzeitliclic Umdefinilion in R bennt v.\ (^elcsen) wird. Dabci mufi B hach 
A au*gefhhri werden. 

• Aitii'AlhavHU-t it: Diese Ablianjn^kdi b<*u-bl. wenn dureh Vertauschen von 
A imd B eijie echi-e Abliangigkeii emsieliOii wurde. 

• Amccbt -Abhth.HpkcH: A mid B sind ;.us^d>r-;ibhangig, wenn beide dicsclbe 
Whiblr (Speidier/rjlejdrfiiiiere.n. Kirn ; \ VrU.usdnmg der Anweiytingen wiirde 
Mso vw tint ersdiiedlidien Ansgaben fiihren. 

Autfmlem uuUtncIm iden wir ?<tih if< nviniUihtiriui AbhartmtjkciUn. die xwisdicn An- 
w»isnn»en drrMllif-n Sddrifeniu ntiion Minimis und. yt hlHJcrtgttraywtc Abhangig- 
hrtui, die >:v.*i>flii is versdiiedenen herai ionei; ;.»:fncien. Bei lei?.teren be/ciohnet 
die Duiaiiz drt AbbojiHah H die Air/ni:! dei !•* :«-.iiouen. die zwisdien den beiden 
Ajiweisung*-ii )><-.■< n. Bci grsdiiidndien ^Vldeifej: j-predien wir yon Dislamvckioren. 
Vxw dif- Vekion.«-ien:ii«! jniissen lib -ifenj 1 /-! raj-enc Abhangigkeiten erbmnl werden. 
Dazu is! i i ii<- Ah ut-A najy^t d< r Frkbugriiit ni',\\y. J jeshrdb definiereri wir zuiiaelist 
den Bt^riff Ateur: Kin. Alb* lie*n \-(»r. -wenn 7\\< \. verM hiedene Ausdriie.ke in einem 
! 1 ro^n.inm ?au Laufzeil dii sdix ^peieheradn-hse i cfcrenzieren. D;i di<-se i;ij»4-iis<:bafl. 
in- ;.l)*rei;u ii»en v.wr rbt-rsci'/urij^wii uifi.i besiinimi wt nlcn kann, miiB 'sic appro- 
ximiert werden. M ir enlersdieidcn zwei Kiille: 

© Kin Ml'ST-AUt;}- Yuyj v*-r. wenn zwei Ansdrnrke mr I.;udV,ei|. innnrr Aliaxc 
voneinandrr si mi. 

«• Kin MA ) :< ;it-«n v (j: -. \,enn y.wei Aiis;.l» iU:ke y.ur baiirxrii. mir mttin lutml 
Aliase vo:it ; :n;.»!(ier srind. 
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tonsiernng ver]nn,w ^f. 11 v oriiandcu ist. Dies • werde n> dafi erne Losu^ 

gen t>eparabihtat s . Test [ZCSl]. bch ^^n) gibt es 

6 er vektoranweisnngen 
ScJiIieJJIich werden die A 

»«• •* Jedod, „ lit / cm * «^c n fiber me hrere Operator ^T" 6 P ' Pe,ines 



Kapitel 5 



Vektorisiernng unci 
Pipeline-Synthese 

Mil -die*™ KapitH Ixginn. d er Ken, dir*, r Arbrit. Es steUt Iie „e Mclhodcn 7i,r 
Syn ,ese von P.pd,,, Sd.a.n.ngc,, a„s S, « B ein,, i.nponaiven PrJ£Z£ 

KoJ V" f S,, "" U 2 ? gen, '"" ,Un T ' il «"" 1 '»«»- Kaudiclaien-Ausw^Td 

Kop,„o,,Sy„,h ( ,,. „nrl k6,„,«„ al K Ko.np,,,,,,,,,,, ,1,. in Abbjldnng ^ S7sci e 1 ol 

dor die Par ,,,,,,,„», u»g, also die Frago : fiir wcld.e dor prinaipiell vcklorisicrbaTe 
Scl.l.rcn «h Cc A^agcrnng o„f die TtK z „ r Pro R ,a,n m bc.dLnig„„ g 

erf . ,. sen, „m aus Progra.n.meilen Hardware z„ grnerierei, hi Z och 

, *" Vektonsirniiig snqueiiuHler Sprachen (vgl. Abschnilt 4 4 2) m \t Hi„ t . 
L-c -Synthc.c-.Me.hoden (vgi. Abschniu 3.2,) koi.Snicrt nm ^ e P?p2t 
Scha t.ungcn, d,« d,e Hardware- Operators parallel „„ucn, zn syiHheMs crcn D ese 
P 1 pc]n,e- Sy ,Hhc S e wW i„ Abschnitt 5.3 auf die Kla.se de SchLfe m^uE? 

en Rr S)s ,.eropt„n,en 1 „ g , das die Method™ a„„ Abschnilt 4.3.4 fiir KPCA ' pcli^ 
^ ^ Abschniu 5.5, wie die ein.Hn,,, Met h I , 
«nem Uberscteer kon.bm.crt werden konncn, und Abschnitt 5.6 Ml di<- KrgcbnJ 
zusanimeii und bewertet sie. 1^00111^ 

SSSr KaPi,C ' S H ,,rdC " bC,CitS in (Wci96a ' W< ' i9tiC > WoiOTa, W«i»7.,| 
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^^SES** °»*££zrr 



5.1.1 



Ei »gabe Sprache 



J* t>ereits i„ Jc a ■ 

J^miewprai K »! edautert . wollen wir ail , . 

Afbeit e *»^ tfi?"; SP -^'-er eteS ntWiCk,6r ' die 
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'•••■2 Hardware-Kandidaten 



>'» "ardware-Kandidat darf koine ni,H • , 

-..'.! -« Prinxipiellr,,- Grt^^S^-n^ F "" kti °" C " C » tha1 ^- 
Am, Prnk.isJho^GrruIn Ln ^ri ' Je S; ° der ^'^bssystem- 

"■'-"Wt weuK n. Ei„ K.ndidat clarf , so nur 7 U " d F " nkti <™frufe 

""r.n. cthalto,..' ° " Ur Z " w ™"»8™ >'»d bcdingtc Anwei- 

CONST KAXJTER = 10- 

31 : ARRAY [0. . lj , [0. .N] OF SCARD; 

Fnft = iTru « ( * Xl °^ iS sourcs array *) 
FOR ITER := j T0 MAXITER DO (* LI 

FOR I := 3 TO N DO . £ .} 

FOR K := 0 TO 3 DO (* L3 ,) 

Fm; 1 ' 5 ' 12 ! " iri ~ S ' n + ^S.I-K] DIV 4; 



END; 

S :- 1 - S; 
END 



•Ar.l.iirhn.g M: l>rognmj m b« S pi t .| llK.].^ 

r -^iid,,,, Kopro.^,:;,, r kw, US ;r ^ c,,a,s,t - '^^ri-d 

)Ja, fK , nre p; „, ll( , ^ , ™ ^7 B,,c:],n„ I)g on in 

- ) ^«'-di^Ausron,, lk ,, jll ,,. rjlm(m ., d k .'";" '» v.c!,,,.^!!,.,, ,, lirdl 

J»«.k«i«..fn gander, »,,d,„ U d , w Kx " ;>, « i "» <"< Id- rrkursivor 

(A bl>i)dujig 5.2) <>in ]<;,„«,! ' ™ ,h i<W1<, <" '""<•' Srl.J.if.- L2 

,,,, , r s , , luM , 

' •*«»«*•«*. »b,, P , inxinM , u * r ,ffc a,,f v «' b ™«'- '>•<»-. >,-.. »,,,i,„ .„, r 

'-<••< Anw,., ; Hu. lff >:kl : ,s.s, ,,i„i i,, Ai-rl, ,:,, <T..T ••, 

»«l>er vorgeslcrlft. 
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KAPJTEL 5, VEKTORISIERUNG UND PIPELINE-SYNTHESE 



S := 0; (* x[o] is source array *) 

FOR ITER := 1 TO MAXITER DO (♦ LI *) 
FOR I := 3 TO B DO (* L2 *> 

X[1-S,I] := 0; 

XCl-S.IJ := Xri-S,I] + XCS.I] DIV 4; 
X[1-S,I] X[1-S,I] + X[S,I-1] DIV 4; 
XEl-S.I] := X[1-S,I] + X[S,I-2] DIV 4; 
XCl-S.I] X[1-S,I] + X[S,I-3] DIV 4; 
END; 

S :« 1 - S; 
END 



Abbildung 5:2: FIR-Filter mit ausgerollter Schleife L3 



5.1.3 Alias- Analyse 

wLt F K n ° pr0 ^ ssor l -^" these «•««». ™We Aliase in den Kandidaten analysiert 
we.iden. Denn be. clcr Konstn.ktion eines Datenflufl-Graphen werden berechncte 
Wert* d.rekt -n,t den Operator™, die sie weiterverwenden verkniipft Dieldentitat 
der Variable,, n„d Ke.dde.nente, die im Kandidaten definiert werden, rnuB Ic durch 
e.,,e exakte Al.as-AnaJyse bestimmt werden, damit die abhangigen Operator die 
nchtven Werte weiterverwenden konnen. Denn wenn ein AHa/zweie: ^iaWen vo ! 
ljcgl, nussen sie als dicselbe Variable betrachlet werden, und es ergibt sich ein an- 

'Xe of , f ? n t AHaS ' MAY - Aliase . die ■» nur mammal 

a, ft.re .cn, vcrhmdern also -die Konslruktion eines eindeutigen DatenfluB-Graphen. 
iwn Alias mufl entweder immer oder niemals auftreten. 

Dagegen konnen Vanablen, die im Kandidaten nur benutst, aber nicht d*efiniert 

^^^"^^ E " I6aben betrachtet werden - Fiir sie * *° w- 

Von den moglichen Ursachen fur Aliase (vgl. Abschnitt 4.4.2) lassen wir Zeiger- 
Opcranonen >n Hardware-Kandidaten gar nicht m .» Durch Referenzparaineter 
vcrursachle Al.ase werden durch bekannte intcrprozeduraJe DatenfluB-Analyse- 
Verfahren erkannt und werden deshalb faier nicht weiter betrachtet. Jedoch muien 
Ahasc ycrsclnedener Fcldzugriffe genaner analysiert werden. Urn deren Index- 
ausdrncke ubcrhaupt vergleichen *u konnen, mfissen sie zunachst ..ormalisiert wer- 



Openti^rf wll Ct T hle M Zie, " ardware Zei *er nicht dereference™ kann. mGssen wir Ze ig er - 
uperntioiien sowicso als nicht synthetisierbar betrachten. 6 



KOPROZESSOREN FUR SCULE1FENFREJE PROGRAMMTE1LE 



>rrtialisierung der Indexausdruoke 

ersten Schritt der Normal isierung werden in alien Indexausdriicken Zwischen- 
; ebuisse, d. h. Variablen, die in denr Kandidaten defmiert wurden, durch ihre 
finuioiien ersetzt. Ergibt sich dadurdi cine indirekte Adressierung, konnen wir 
: Aliase nicht exakt bestimmen und miissen MAY-Aliase annehroen. Wir konnen 
mi also keinen Koprozessor fur den Kandidaten erzeugen. Andernfalls wcrden die 
isdrucke ini 2weiten Schritt in nioplichst lineare Ausdriicke der anfierhalb des Kan- 
iaten definierten Variablen umgefonnt. Unser Beispielprogramm (Abbildung 5.2) 
Llialt keine indirekte A dressier mig, und allc lndexausdriicke sind bcreits linear. 

irgleich der lndexausdriicke 

ir eigcntlichen Alias- Analyse miissen die moglichen Werte der Indizes aller defi- 
:u*ten Felder vergliclien werden: Urn MAY-Aliase auszuschliefien, durfen zwei ver- 
iiiedene lndexausdriicke zui Laufzeit nie denselben Wert annehmen, also dasselbe 
Jdelement referenzieren. Da in uusercm Kandidaten in Abbildung 5.2 nur das 
:ldelcment XCl-S,!] definiert wird, ist hier keine Analyse notig. 
ie Analyse entfallt ebenfalis, wenn alle Indizes Konstanten sind. Andernfalls 
ussen die moglichen Werte der anfierhalb des Kandidaten definierten Variablen 
itrachtet werden: Dafiir gibt es verschiedene Moglichkeiten: 

• Habcn die Variablen nureinen kleinen Wertebereich (etwabei Unterbereichsty- 
pen), dann kann die Gleichheit der Ausdriicke durch vollstandige Aufzahlung 
aller Belegungen getestet wcrden. In Abbildung 5.2 ist dies fur die Index- 
ausdrucke S und 1-S des Feldcs X der Fall: Sie nehnien fur beide zulassigen 
Belegungen von S (0 und 1) unterschiedlichc Werte an. Ein Alias ist also aus- 
gcschlossen. 

• Untcrscheidcn sich die Ansdrucke durch konstante Summanden, so sind sie 
audi immer verschieden. Dies ist ctwa fiir die Indizes I, 1-1, 1-2 und 1-3 in 
Abbildung 5.2 der Fall. 

o 3n mancheu Fallen konnen audi durch einc abstrakic Interpretation der Zuwei- 
sungen Informational! iiber die Werte znr Laufzeit gewonnen wcrden. 

o Schliciilich konnen zur Bestimimmg der Gleichheit auch fonnale Vcrfahren wie 
bci der Abhangigkeits- Analyse (vgk Abschnitt 4.4.2) vcrwendet \yerdeu, falls 
nur lincare Ausdriicke der Variablen vorkoinmen. 

vir gehen hier nicht nahcr auf die formalcn Verfahren ein, da in Abschnitt 5.2.2 
urch cine zusatzliche Bcdingung eine einfache und exakte Alios- Analyse fur be- 
limmte lndexausdriicke in Schleifen moglich wird. Und fur die anderen Ausdriicke 
eicht mcist einc der obeu genannton einfachen Analysen aus. 



5-1.4 Koprozessor-Synthese 

^^SS^™^ * Kandidat n Ur 
n.erten Variable,, oder Feidelementen bestehen ^n^w-'" ,™ Kandida ^ defi- 

fur d,e rekefigurierbare Hardware erzeug Idem d ""fT ^ K °P roz «*°' 
e,ner FPGA-Bibliothek instansiert werden So f t dif $ C *"* to ?» durCh Modu 'e 
rtunmten FPGA-Typ beschrankt, sondern ffl r alt ft 1 ^ mcht auf einen >>e- 

etc.) angewendet werden. *-n"«nen toten Codes, Konslanlenfaltung 

Dann wird fur jeden Basisblock d M kwj * 

der die loka.cn Dateaabh^eiS SS^^^* 6 "* 

che (bsw. der Zwischensprache) werden Z Z\ hle der Pro g r ^n,ierspra- 

Sch,ebe-0 P er a tore„, ^Btigen eigenufch L k " * ,f ^ * & K "»stanten oder 

<Jer E, n gabe.b 2w . Ausgabe . Si gI Ije re X ^'"^1 ^~ ents P^chende Verdrahtung 
-den sie jedoch a,s ^Op a ^^^^^f^ 
Dadjeemz genimKandi^f^ i A ^aware-tfedarf beibeha ten. 

-ngen -rtfi^^S ^SST*? "-trol.konstrukte bedingte Anwei- 
schnitt 3.2.1) aIle KomrollaS^ aI 
Graph™ f« r den gesamten R ^ Wir erhaiten einen DatenfluB 

dL r gt r gcwiesenen v ™ hL -4-^1?^ dic richtieen Werte 

oder ermoglichcn eine •a^^ASS^"" *" ^are-B^f 

* r a — - - 

Hardware-BedarfundspaterdiePipel^tTiefer den 

# p^^^^^-^ BH Iangen ( , B . w 
k'erung h6herwerti ger Bits) Sch.ebeoperatoren oder bei der Mas- 
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• Optimiere Opcratoren mit konstaiiten Opcranden (z. H. Srhiebeoperalor st.aU 
Multiplikalion mit odcr Division (lurch 2*). 

• F.rsetze mehrerc Operatorcn in aiteniativen Pfaden clurch cinen Operator (vgl. 
lMSYN-Syst.em, Abschnitt 4.3.2). 

| — "0 *©-^ XII-S.I1 

/ J_ Y_ JL 

(0IV4) (piV4) (i)1\m) (piV4) 

X|S,I] X[S,M] X[S,l-2] X[S,I-3] 
Abbildung 5.3: Azyklischer D ate i if] ufi- Graph 

Abbildung r > den axyklisdien Datr.nfluB-Graphon fur das Beispi el program m 
aus AbbHdnngo.2: Er berechnct aus den Eiugabcn X IS, I], X [S,I-1], X[S,I-2] und 
X IS ,1-3] die Ai^gabe X[l-S,l]. (Konstanu: Opcranden wurden in dieser Darstcl- 
hm»; in die Operator- Knotcn intcgriert.) 

Dmrli histaiixirmi der Operalorcn cines DatenfluB-Graphcn crhaltcn wir cin rcines 
Sdia)im*iz. an diSM-ii Ausgangen bei korrekt anliegcndcn, stabilen Eingabewerten 
narli einer fesien Wrzoge.ru ngszeit die Au^gaben des Kandidatcn anlicgcn. Es ist 
ofrcnsichtlicli. daB zum Einsatz dieser Koprozcssorcn weiterc Stcuerlogik notig ist, 
die stabile Eingabrwcrte an die entsprcelirrtden Ports des Koprozessors anlegt und 
nii eh der Wi-ziigrrungszeit die Ausgahcports auslicst . Wir wcrden die Anfordcrungon 
an diese Stenerlogik in Abschnin 5.2.2 fiir die komplizierteren Pipdine-Schaltungen 
prazisicrcn. 

Dicsc kombinaioriM hen Koprozessoren erreichen den grofiten hmcrhalb eines Kandi- 
(laien moglichen Parallelilatsgtad, da nur voneiitandcr abhnngendc Operatoren se- 
riahsiert werden. Auch wcrden durch diedirektc \Vicdcrverwc::dnng von Zwischcncr- 
gebmsscn im W-rglcir.li zu cinor Software- A usfii lining Schreib- und Lescoperationen 
cinacspnrt. Daftir muB aber fur jede arit hmetischc oder logischc Operation de-S Kan- 
didateu cin Hard ware- Opera tor instanzicrt werden. <ler dann pro Koprozessor- Aufruf 
nur cinma! benutzt wird. Deshalb rcicht die ParaJlcbtat inncrhalb eines Kandidateu 
kauin aus. um den Konfigurierungsaufwand fiir sol die Koprozessoren zu rechtferti- 
gen, wcnii sic im Programm nidit schr haufig ausgefiihrt werden. 
Urn dieses Problem zu entscharfen, wird im PRISM -System versndil., den Hardware 
Bedarf und die Verzbgerung durch Logik-Minimierung zu reduziereu. Alternaiiv 
konntc durch cine gfmsLigc Ablaufplanung und Operator- Zn lei lung Hardware wir 
derverwendet und eingespart wcrden (vgl. High- Lcvel-Syn these, Ahseliniu 'A/2. 1 ). 
SdtlieBlich konnten auch auBcre Schleifcn tcihacise ausgerollt werden, um i;n"»B<-n* 
Kandidateu zu crh alien, deren Hardware- Bedarf dann wiedenun durdi rinr rut 
sprediende Ablaufplanung und Wicderverwendting reduziert werden mull I>m-, im 
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aber schwierig, da die Datenabhangigkeiten bei teilweise ausgerollten Schleifen durch 
eine einfache Alias- Analyse nicht mehr erfafit werden konnen. Eine einheitliche Be- 
handlung der ganzen Schleife ist auf diese Weise nicht moglich. 
Dcshalb vcrzichten wir auf diese Optimierungen und analysieren im nachsten Ab- 
schnitt alle Abhangigkeiten einer Schleife, ohne sie auszurollen. So konnen wir ihre 
Struktur systematisch nutzen und alle Operatoren in einem Koprozessor in jeder 
Iteration wiederverwenden, was zu einer erheblichen Leistungssteigerung fiihrt. 

5.2 Pipelines fur Schleifen ohne Abhangigkeiten 

Die im vorhergehenden Abschnitt entwickelte Koprozessor-Synthese ist auf Kan- 
d id at en ohne Schleifen beschrankt. Rekonfigurierbare Hardware eignet sich jedoch 
besonders fiir regulare, iterative Bcrechnungen, wie wir in Abschnitt 3.4.2 gesehen 
haben. Da diese aber in hoheren Programmiersprachen durch Schleifen ausgedruckt 
werden, sind Koprozessoren fur Schleifen besonders wichtig. 

Aufierdem sollte ein Koprozessor die Parallelitat der Hardware moglichst gut aus- 
nutzen, um eine Anwendung zu beschleunigen. Dies kann sehr gut durch Pipeline- 
Schaltungen, in denen alle Pipeline-Stpfen gleichzeitig aktiv sind, erreicht werden. 
Wir kombinieren deshalb beide Anforderungen, indem wir Schleifen durch Pipeli- 
nes ausfiihren: Verschiedene Schleifen-Iterationen werden von den Pipeline-Stufen 
uberlappt bearbeitet. Dazu muB die Schleife jedoch vektorisierbar sein. Das heifit, 
es diirfen keine Abhangigkeiten zwischen den Iterationen bestehen, die ihre Uber- 
lappung in einer Pipeline verhindern. 

Deshalb zeigen wir in diesem Abschnitt, welche Abhangigkeiten analysiert werden 
mussen und wie fur vektorisierbare Schleifen effiziente Koprozessoren durch Pipeli- 
ning synthetisiert werden konnen. Zunachst mussen die geeigneten Schleifen jedoch 
ausgewahlt und normalisiert werden. 

5.2.1 Schleifen-Auswahl und -Normalisierung 

Wir betrachten nur innere Schleifen als Hardware-Kandidaten, da sie das groBte Be- 
schleunigungspotentiai enthalten. Aufiere Schleifen wurden kompliziertere Kopro- 
zessoren erfordern und sollten besser in Software bearbeitet werden. 5 Aufierdem 
kommen nur FOR-Schleifen in Frage, da bei anderen Schleifentypen bereits durcli, 
die Abbruchbedingung eine Abhangigkeit von der vorhergehenden Iteration besteht. 
Dabei rnuB der Rumpf einer FOR-Schleife ein Hardware-Kandidat im Sinne von Ab- 
schnitt 5.1 sein. 

Nach dieser Vorauswahl mussen die Schleifen und die in ihnen referenzierten Felder 
fur die Vcktorisierung und die Pipeline-Synthese normalisiert werden. Dabei wer- 

5 Dies schlieCt naturlich nicht aus, daB kleine innere Schleifen durch vollstandiges Ausrollen (vgl. 
Abschnitt 5.1.2) vor der Auswah! der Kaiididaten eliminiert werden konnen. 
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, 2 . p 1FE LimSFVRSCHLElFENOHNEABHANClGKElTEN 

lcH sp^eUe Felder, die VeUoren, definiert »nd identic*. N»r di,*c k6„„en in 
Pipelines verarbeitet werden. 

Bcreichs-Normalisierung 
transformiert; 

wird. Die Schleife hat dann die Forn, FOR I:=0 TO H DO ... END. 
. Transferee die Indexbereiche der Felder so, daB die «nt*re Grenze aller 

Bcreiche 0 ist. 

^^^^^^^ 

angepaBt werden. Das Ergebnis ist in Abbddung 5.4 dargestellt. 

s""« 0; (* x £°3 is source arra ? 

FOR ITER := 1 TO MAXITER DO (* LI *) 
FOR I := 0 TO N-3 DO (* L2 *) 

lltlj^ !- 5ci-S.I*33 + X[S.I+33 DIV 4; 
XLl-S>33 =.IU-S.I^ + US^ : IDIY4; 
xn-S.I+33 Xft-S.I+33 + X IS. 1+13 MY 4; 
X[l-S.I+33 XL1-S.I+33 + XLS, I) DIV 4; 
EHD; 

S :« 1 " S; 
END 

Abbildvmg 5.4: FIK-Killcr iiacb SdikifeiivariaWcn-Suhslitulion 
Felder und Vektoren 

p 0r ,r,o „- M Tr,,*,.,,.,!. «» -**™-™ b 'f :r A s:tT; 

lich behandelter Datcn pnizise dcfinicren: 
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Definition 1 (Skalare Daten) Skalare Daten sind diejenigen Variablen die vo 
den ublxchen Operaioren einer Programmiersprache als Einheit verarbeitet werden 



von 



A nmerkung: Diese skalaren Daten sind intern als Bitfelder reprasentiert deren Lan K e 
meist der Wortlange des verwendeten Prozessors entspricht. Durch e'ntsprechende 
Typdefimtionen konnen audi kiirzere Wortlangen (etwa 8 oder auch 1 Bit) definiert 
werden. ' 

Definition 2 (Pelder) £m eindimensionales Feld (Reihung, Array) ist die in al- 
lenimpemtiven Programmiersprachen bekannle Zusammenfassung mehrerer skalarer 
Daten dessclben Typs. Ein Feld A der Lange N bestehi aus den Elementen A[0] bis 
ALN-lj, die m aufemanderfolgenden Adressen im Speicher abgelegt sind Ein zweidi 
mcns.oi»ales Feld B ist ein Feld, dessen Elemente (Teilfelder) B[I] selbst eindimen- 
sionale Felder sind. Die skalaren Daten werden mit B[I] [J] oder B[I J] referen- 
ziert. Es ergibt sick also eine zeilenweise Speicherung. Wir bezeichnen J als erslen 
und I als zwcilen Index von B. Analog werden mehrdimensionale Felder definiert 
In alien Fallen werden konstante Feldlangen vorausgesetzt. 

Anmerkting 1: Diese Definition entspricht MODULA- Arrays mit normalisierten In- 
dexberc.cl.en, w.e sie durch die oben vorgestcllte Normalisierung erzeugt werden 

t n Z €r tn ^ ?o,5T ie l ,en Befeh,cn > die einze, «e Bits eines Wortes manipulieren 
(z. B. INCL auf BITSET), zahlt nicht das Bit, sondern das ganze Wort als skalares 
Uatum, da es ,n der Programmiersprache immer als Ganzes manipuliert wird Eine 
Variable vom Typ BITSET wird also als skalares Datum, und nicht als Feld einzelner 
Bits betrachtet. 

Definition s (I-Abhangigkeit in Schleife L) Wir bezeichnen ein eindimensio- 
nales Feld als I-abhangig in L, wenn in L an mindestens einer Stelle mit einem von 
der Schleifenvanablen I abhangenden Indexausdruck auf das Feld zuaegriffen wird 
Mehrdimensionale Felder sind in der n-ten Dimension I-abhangig, falls dies fur den 
indexausdruck der n-ten Dimension gilt. 

Sf^k£r n inL (Vekt ° r ^ SChleife L) EiTt eindimensionales - ^hangiges Feld ist " 

D f n '^u ^ Vekt °? eld in Schleife L > Bm Vektorkann auch ein eindimensio- 
nales Teilf eld ernes mehrdimensionalen Feldes sein, das nur in der ersten Dimension 
l-abnangig ist. Wir sprechen dann von einem Vektorfeld in L. 

Definition 6 (Allgemeines Feld in Schleife L) Ein in L nicht I-abhangiges 
Feld ist em allgemeines Feld in L. 
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lit d.esen Defin.tionen wird ffirje.de SchJcife zwischen I-abhangigen und allgemei- 
™ Feldern untersclneden. Die Werte der J-abhSngigen Felder, bei denen in jeder 
:hle.fe.meral.on auf andere Elc.nei.te zugegriffcn wird, werden bei der Vektorisie- 
ing analysiert und in der Pipeline-Synlhese beriicksichtigt. 

ics ist fur die Zugriffe auf allgemeinc Felder nicht notig. Da ihre IndexausdrScke 
< hl von der Schlcifenvariable abhangen und wegen moglicher Aliase sowieso nicht 
... Zv-.schenergebn.ssen abha„ geH dfirfen (vg). Abschnitt 5.1.3), wird in jeder Ite- 
t.on dasse.be Element rcferenziert. Folf.licl. konnten die Elemente der allgemeinen 

W "I / X l d " rCh Ska]aiC Variah,en ersclzt werden - Vor der Schleffe mufite 
iff, wt^T 65 ™ diC Ska,arC Variab,C 2 «S ew '«*n werden, und nach der 
Wafe der Wert der skalaren Variable an das Felde.ement. Da diese TVansforma- 

JtoT^r^T T- n CT 0,),, - Desdlranku »g d <* Allgemeinheit fordern, 
fi.n e.ner Schle.fe ke.ne allgemeinen Felder vorkommen diirfen. Wir beschranken 
Fordcrnng jedoch auf Zuweisungen an allgemcine Felder, da Elemente, die nur 
lesen werden , w.e skalare Eingaben behandelt werden konnen. 

Mizeptionelle Vektortransformation 

^^^^^^J**** 1 ** 1 ™* ff,r AU &™™ Felder mussen wir 
e,nem Kand.daten nur 1-abhangige Felder betrachten. Wir wollen Hardware- 

ST^Lr^ di t diese bearbcitcu k6nnen - u - ste^k 

«l.chst emfach zu hallen, beschrankcn wir uns auf die Adressierung von Vek- 
Tj^r f I-aWitogigen Fcldcrn. Denn diese konnen direkt auf 

. emd.mens.onalen AdrcBraum des lokalen Speichers der RE abgcbildet werden 

felderZT H abCr *• ? m f rdimens5ona,e l-abhangige Felder vor, die keine Vek- 
' vxT n,cht J 0der nicht nw »' d " ersten Dimension I-abhangig sind. 
musscn ,„ Vektoren oder Vektorfclder transformiert werden, urn die Adressi* 
-Lri,r em Kopr0z ^f 211 vereinfachen. Dadurch wird auch gleichzeitig die zur 
.tons.cn.ng not.ge Abl.angigkeits-Analysc vereinfaclit. f 



ibrall Felder F in L mil Dimension n > 1 do 
k := grofite I- 
if k > 1 then 



k kiTth I " abhan6ige Dime » si °" »' F; /* k=0, falls I-nnabha..gig */ 



Transformiere k-dimensionales Teilfeld von F n.it Feldlangcn /, U 
in den D.mcnsionen 1 bis k in Vefctor der Lange h x l 2 x ... x i k ; 
/ i«al]s k=n, w.rd das ganze Fcld transform iert. ♦/ 



delS?" 1 ^ I" Abbi,d,,n S 5 5 ste »* *™ *>lche Transformation dar: Br ver- 
ueit aJle mehrdimensionalen Felder, die in einer hohcren Dimension I-abhfingig 



•vtrv .-vd 



. ™e^ no. fa Veitoren ^ in dw 

en Teilfe.de, einfach als groflere, ^^t^If**!*-. ^rdi me ns,W 
^nen skalaren Daten. Dies ist e ne rein ""^^eFelder der enthal- 
Betrachtungsweise, nicht teteZtZtiSZT'f' Tr * nS f°™<*^ die nur die 
-den. Sie Ilimmt dje A^^^^^^JF^^.^ 

: Adrefiraum) teilweise vorweg if ° f AMUia * * uf dt * 

grofite J-abhangige Dimension k, so wird daTfdi™ " ^ d,measi ^^ Feld die 
trachtet. Wir erhalten ein tj.n i k -dimensionale TeilfeJd als Vektnr 

Teilfelder Vektoren SJ.lfc Ve I^^^**^ 

Be,sp,el: Da in unserem diirchrchp,,^ r> V0,lemander bearbeitet werden. 
VektonransfonnaUon noJ^XXn ^^t^ 1 ^ptionelle 
dimens.onalen Feldes X erlautern: * am BeKpiel des drei- 

I: ^^. [ 0.. l2 - 1] , t O.,H ] 0 FMIm 

* LJ, I'U+lHnonnaKaiertX'rJ.I.ttJ+l)]) 

Abb.ldung 5.6: Beispiel zur Vektor-Transforroation 
Abbildung 5.6 zeigt links Zugriffe auf X f m it «? », i r 

- Xi n derersten (1,3. 4) ^^TtS^T^^ 1 ^^ 2 ^ 
n d er drltten . 6 Fo] , ich zwcidi™ ^bhangig, jedoch nicht 

L2 U „d LI wird in einen eindm^|^^£™^* ^ "it den Groflen 
W.r erhalten das folgende neue VektorfeM: ( ^ ^ L] > ^formiert. 

^r [ 0..L3- 1 3. C0 .. L2 . a . l3 OF INTEGER 

?^«5SSr^^ d * Inde*^ in Zugriff ° 

"berprufen, werden sie n^'S II ^ ( 5* n !^te Change,. U m dL „ * 
w»e ,„ Abschnitt 5.1.3 normalise* 5t ^^iYI 10 ^^-" "ochmals 
f / + , SX 7 darete1 ^- Dabei bezJSnrt C ? ****** dann in der Form 
Ansdnick von auBerhalb der SchJdTJS* . 6,n * Sanzzahlige Konstante, K einen 
«nd 5 ^ 0 die gan Z2 ahli ge kon ^ VW * Uen ' 1 die SchleifenvanaWe 

g C1,en zu ko ™». fordern wir auBerdem, 

e-Me, dafi dle Dlmension _ ^ ^ ^ 
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B V in alien Zugriffcn anf einen Vektor (bzw. auf einen Teilvcktor eines Vektor- 
des) gleich sein muff. So ist fiir einen .Vektor der ganze Ausdruck C + V in einer 
hleifenausfuhrung konstant. 1m Beispi el program m aus Abbildung 5.4 ist dies der 
J!, da in alien Fallen V = 0 gilt. 

lias-Analyse fur Vektor-Elemente 

un jmtzen wir die oben getroflcnen Einschrankungen, urn eine cinfache und exakte 
lias-Analyse fur die Vek tor-El einente abzulciten. Denn in Abschnitt 5.1.3 wurden 
ir fiir einfache Fallc Mcthoden zur A lias- Analyse von FeldzugrifTen angegeben. Urn 
ipeline-Schaltungen zu synthetisieren, ist aber fiir moglichst viele Falle eine exakte 
lias-Analyse der Vektor-Elementc notweridig. Da wir forderten, dafi V fur alle 
jgriflfe auf einen Vektor gleich sein mufi, ist cin MAY- Alias durch andere Variablen 
s die Schleifenvariable bereits ausgeschlossen. 

<:5 spiel: In Abbildung 5.6 ist V in den normal isierten Ausdrucken 1 und 4 (mit 
±leifcn variable 1) ungleich (V — J und V = 0). Folglich ergibt sich fur J = 0 ein 
lias, da der I-abhangige Index der ersten Diniension dann in beiden Ausdrucken 
eicb ist. Ware V in alien Ausdrucken gleich, konnte sich ein solcher MAY- Alias 
icht ergeben. D 
ur die verbleibendcn durch die Sch lei fen van able verursachten Aliase kann nun eine 
cakte Analyse dnrchgefiilirt we.rden. Sic uberpriift fur alle Zugriffe auf einen Vektor, 
b ihr Index zu cinem Zeitpunkt denselben Wert annehmen kann, die Zugriffe also 
1 AY- Aliase sind. Da alle Ausdriickc die Form A { = C, ; + V + S { x J haben, mufi fur 
llcPaare (A u A?) mit Cj ^ C 2 oder 5j ^ die folgende Gleichung gelost werden. 

A, = A 2 (5.1) 
C, + V + Si x / = C 7 + V + S 2 x / (5.2) 

is ergeben sich 2wei Falle, die cinfach uberpriift werden konnen: 

e Fur Si = S 2 folgt Ci — C 2 . Dies ist ein Widcrspruch zur Annahme C\ ^ C 2 
oder Si ^ S 2 . Also gibt cs keine Losung und auch keiuen Alias. 

«» Fiir Si ^ S 2 folgt I = Falls / ganzzahlig ist und im lntervall [0. ,K] 

liegt, existiert cin MAY- Alias. 

n unserem BeispicJprograinin aus Abbildung 5.4 gilt in alien Fallen S — 1, so dafi 
4AY-Aliase ausgeschlossen sind. 

>.2.2 Vektorisierung 

tachdem eine FOR-Schleife nonnalisiert ist nud auch uberpriift wur*U\ daB Hie nur 
incare Vektorzugriffe ohne MAY-Aliase enthalt, ist die eigcntliche VektorisieruiiK 
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recht einfach. Wir miissen nur uberpriifen, ob die Schleife in einer Pipeline aus- 
gefuhrt werden kann. Dies geschieht durch eine Abhangigkeits- Analyse des Schleifen- 
rumpfes. Eine explizite Transformation in Vektoranweisungen geschieht jedoch nicht. 
Vielmehr werden alle Anweisungen des SchJeifenrumpfes implizit zu Vektoranwei- 
sungen, indem Pipeline-Operatoren fiir sie erzeugt werden (siehe Pipeline-Synthese, 
Abschnitt 5.2.3). Urn die zu analysiercnden Abhangigkeiten genau zu definieren' 
stellen wir zunachst das zugrundeliegende Pipeline-Ausfuhrungsmodell vor. 
Dabei erkennen wir, dafi fur die Vektorisiemng eine schwachere Bedingung als fur die 
Parallclisierung ausreicht, da die Iterationen in Pipelines zwar uberlappt, aber immer 
noch in der urspriinglichen Reihenfolge ausgefuhrt werden, wahrend bei Parallel- 
odcr Vektorrechnern gar kcine Aussage uber die Ausfiihrungsreihenfolge gemacht 
werden kann. 



Pipeline-Ausfuhrungsmodell 

Die Pipeline-Schaltungen fuhren die Schleifenanweisungen auf der RE ohne Interak- 
tion mit dem Wirt aus. Dafiir sind (nach der Konfigurienmg der RE) drei prinzipielle 
Phasen notwendig: 

1. LOAD: Laden der Felder in den lokalen Speicher der RE und der skalarcn 
Variablen in FPGA-Register 

2. EXEC; Unabhangige Pipeline-Ausfuhrung 

3. STORE: Ruckschreiben der Ergebnisse zum Wirt 



Der gesamte Ablauf wird von einer Pipeline- Steuerungseinkeitgesteuert, die im Ab- 
schnitt 6.3.1 vorgestcllt wird. Das Verfahren konnte beschleunigt werden, indem 
die meist langsame Dateniibertragung zwisrben Wirt und RE und die Pipeline- 
Ausfuhrung uberlappt werden. 7 

In der EXEC-Pha.se durchlaufen die im externen Speicher abgelegten Vektorda- 
ten den aus dem Schlcifenrumpf aufgebauten DatenfluB-Graphen als Datenstrome. 
Dabei erfolgt das Lesen aller Eingabevektoren und das Scljreiben aller Ausgabevek- 
toren gleichzcitig und mit der eigentlichen Datenverarbeitung uberlappt. Auch die 
Verarbeitnng selbst ist normalerweise in mehrere uberlappende Pipeline-Stufen un- 
terteilt. Dcshalb werden die Ausgabcwerte einer Iteration im externen Speicher erst 
gespeichert, nachdem schon mit der Berechnung einiger nachfolgender Iterationen 
begonnen wurde. Folglicli diirferi als Eingaben keine Werte verwendet werden, die 
in einer vorangehenden Iteration verandert worden sein konnten. Wir mussen'also 
fordern, dafl keine echten schleifengelragenen Abhangigkeiten auftreten. 

7 Diese Erweiterung wird in Abschnitt 7.4.1 diskutiert. 
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Analyse sclileifengetragener Abhangigkeiten 

Da iiuUere Sr.hk-.ifcn sequent icll in Software ausgefiihrl werden, sind die von ihnen 
getragencn Abhangigkeiien irrelevant. Wir miisscn also nur die von dcr zu vekto- 
risierenden inneren Sdileife getragenen Abhangigkeiten bcrucksiditigcn. AVie oben 
crklart wurde, sind von diesen im Pipeline- A usfuhrungsmodell wiedcruin nur die ech- 
ini relevant, da die Keihenfolgc der Sdiroib- und Lesooperationcn erhalten bleibt. 
Andernfails miifitcn audi die Anti- nnd Ausgabeabhangigkeitcn betrachtct werden. 
Znr Analyse benotigen wir ztmadist die Mengcn INPUT (Ausdriickc, die im Schlei- 
fenrtunpf nur gclesen werden odor gclesen werden, bevor sie geschricben werden) 
* imd OUTPUT (Ausdriicke, die im Sdilcifenrumpf gesdiriebcn werden). 8 Da aus 
alien Anwoisungcn des Sohleifenruinpfcs ein DatcnfluB-Graph erzcugt wird, konnen 
wir den ganzen Rimipf als einc groBc Anweisung mil der Eingabcmenge INPUT und 
der Ausgabemcnge OUTPUT betraditen. Abhangigkeiien entstehen dann, wenn ein 
Ausdruck in OUTPUT ein skalares Datum [also eine Speicheradressc) refcrenziert, 
das in eincr spatcren Juration von eincm Ausdruck in INPUT refcrenziert wird. Dies 
ist. bei skalarcn Yariablcn, die in OUTPUT und INPUT enthalten sind, immer der 
Fall: Da sie nur einc Speicheradresse refcrcnzicrcn, wird ein Ausgabewert immer in 
der direkt folgenden Iteration wciterverwendet. 

Vektoren und Vektorfeldcr rmissen hingegen genauer analysiert werden. Jcdoch ist 
nur der Index dcr erslen Dimension relevant, da nach der konzcptioncllen Vektor- 
transformation nur in dieser Dimension eine J-AbhSngigkeil moglich ist. Fiir einen 
Vektor ergibt sich also genan dann eine echte Abhangigkeit, wenn die Indexfunktion 
Ai(J) eines Zugriffs aus OUTPUT denselben Wert wic die Indexfunktion A 2 (J) ei- 
nas Zugrifls (auf denselben Vektor) aus INPUT in ciner spatcren Iteration (J > /) 
auuehmen kann. Dazu rmiB folgende Gleichung geltcn: 

A 1 [I) = A 7 (J) (5.3) 
^ C x + V + 5j x / = (-2 + V + S 2 x J (5.4) 
5,x/-.9 2 xJ = C 2 - Ci (5.5) 

Diesc Hruare. dwphanlischt Gltichimg hat genau dann ganzzahlige Losimgen, wenn 
die folgende ggT-Bcdingung gilt: 

V 

^X5i,5 2 )|(C' 3 -C,) (5.0) 

AnBcrdein nriisscn die Lostmgen im riehligcn Interval! liegen, also die folfvnde Zu 
.satzbedingung erfullen: 

0 < J < J < N 

Falls <iie leidit zu iibe.rpriifeiidc ggT-Bedingung (5.G) nieht gill, ist ein.* A I »k;iii|-i^ktii 
ansgcsdilossen. Anriernfails unterscheiden wir wiederum */wei KiLUe: 

'Viiier Ausdriirkc-ii verslehcn wir liier skalare Variablcn uiul nornuUisicrlc VVkiotxiiKnllr 
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• Falls St = Si, definieren wir S := 5,. Dann gilt folgende Gleichung: 

Sx(I-J) = C 2 -C 1 (58) 

* 5x(;-; ) = (7l -c s M) 

* 1 S~ (510) 



— C 2 



(5.11) 



Wir miissen also priifen, ob es Paare (I, J) = (/,/ + £i=Sz) gibt d - 
Z^bcdkgung erfullen. Dann liegt eine Abhangigkeit vor. Die! ist' fur 0 < 
< A der Fall, kann also ebenfalls einfach uberprnft werden. 

" F l r ,5 t 52 i aBt . sich die Zusatzbedingung nur mit dem aufwendigen Sepa- 
rab.htatstat best.mmen. Man konnte auch den einfacheren, aber JngenauW 
Banerjee-lest anwenden oder in alien Fallen eine Abhangigkeit annehmen. 

Beispiele: In unserem Beispielprogramm (Abbildung 5.4) werden die Elemente von 
[S] m.rgcesenunddasElementXCl-S.I+Sj nur geschrieben. Esbestehen eZZ 
k«„e schl^fengetragenen Abhangigkeiten, so dafi dieses Beispiel sowohl in unserem 
MD»e vektons.crbar ate auch parallelisierbar (fur einen Parallel- oder Vektorrechner) 

£lh J ch: en!Chied " WiSChen beide " Ei S enschaften ™* an der folgenden Schleife 



FOR I := 0 TO N DO 

X[l] := X[I] + X[I+13; 
END 



etfit H ?H. P S,C r: ^ die c Zuwcisun g ™ «ch selbst anti-abhangig ist. Das 
.e.Ct. daB der n, emer Iteration definierte Wert X[I] nicht in den Speicl^r geschriJ 

In" Z > beVOrdie A Ein ^ der ™ ursprunglichen Prograrl vorhfrS". 
■c» Ilerat.on ge esen wurden. Denn eine.solche Vertauschung der Iterationen wfirde 
u falschen Erg e b„ & se.n fuhren. Die Schleife ist jedoch vektorisierbar, da kZe Zte 
ibhang.gke.t expert. Der definierte Wert X[I] darf namlich beliebig spaTin dtn 
pe.cher geschneben werden, da er nicht weiterverwendet wird. Eine Ubelppung 
er Lese-, Berechnungs- U nd Speicher-Phasen der Iterationen ist sulassig. □ 

'.2.3 Pipeline-Synthese 

isher haben wir FOR-Schleifen normalisiert und analysis, ob sie vektorisierbar 

£h h eSChre,bt nUn> We fQr vekt ™bare Schleifen Pipelne^ 

:haltungen synlhetisiert werden. Dazu wird zuerst - wie in Abschnitt 1 1 I s 

VkliKher DatennuB-Graph des Schleifenrumpfes generieA" fn^en dlach 
Dreg 1S ter und Pipeline-Stufen eingefiigt werden. g 
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Wir habcn bereits bei der Discission der einfachen kombinatoriscl.en Koprozesso- 
rcn erwal.i.l, daB dure!, zusatzliche Logik stabile Eingabcwerte fur den Koprozessor 
itracugl werdci. miisscn. Dies ist am einfacl.sten durdi getaktete Register moglich 
ieren Werte gez.elt gesotzt werden koinien. Wir werden also Emgaberegister za dem 
DaienfloB-Graphcn. l.inziifiigcii. Diescr wird dann als Schaltung bezeichnet, da er 
wel.r als mir kombinatorisdie Operatorcn enth&lt. '. 
)ie skalaren Eingabrvariablen werden — nach Absd.nitt 5.2.2 — in der LOAD- 
;>l)a.se direkf. in FPGA-Rcgisler peschriebe.n. Fiir jede skalare Variable in INPUT 
vird also cm Reg.stor, das nur einmal vor Beginn der EXEC-Phase initialisiert 
vird, ssur Schaltuug bin*u e ef«gt. Die Vcktordaten werden jedodi in den lokalen 
.pcicher. kop.ert. Sic imissen also vor der Be.rechnung des Schleifenrumpfes gelesen 
■nd cbenfalls in FPGA-Registem gespeichcrt werden. Wir konntcn nun cinfach auch 
uralle Vck tore, nga ben nnnbhangige Eingaberegister allokieren. In der EX EC-Phase 
nnUten dann aber vor jeder Scl.lcifeniteralion alle Werte nacl.einandcr durch je 
men Viktor- Emgabc- Port ans dem .Spcicher gelesen und in die Register Reschrieben 
/erden 



)abei solltc aber bcrucksichtigl werden, dafi bci Schleifcn in jeder Iteration — also 
l jedcin Pipclmc^Jakl - ein nciicr Satz Vektorcingaben gelesen wird. Falls ein 
eklor- Element berc.ts in einem friiheren Takt gelesen wiirdc, iniilite es nicM noch- 
lals en.gelesen werden. Rs sollte virifmehr in eincn. FPGA-Registc* gespeichert und 
vakrutrwnulvl werden, da ein Zugriff anf den external Speidicr viel langsamer als 
ii Reg.stcrzugrifrist. Dies ist moglich, da Vektorcingaben, die in verscl.iedenen Ite- 
itionen d.e_selbon Vcktor-Elc.nente rcferenzicrcn, folgendennafien bestimmt werden 
innen: 



'efinitio,, 7 (Aquivaleiiz von Vekt oreingaben) Zwei Einqaben dcsselben Vek- 
■r.v vat dm Zvpiffsfwikliom-n A, = C, + V + 5, x- ; und A 2 = C 3 + V + S 2 xl sind 
,-nvalent fall, S t =- S, vnd C\ mod S = C 2 mod S (mil S := SJ. Die Distanz 
r hmgaben ml. dann D —- tj ^ 2 . 

ad, dicser Definition lirgen die Adressen (Indizes) allcr dnrch Eingabcn ciaer 
:|.nvalen,klasse mfcronwmrn V< klor-Elcmento in derselbcn Rest klasse mod S 
e fconnen dnrch « nen Eiugabe -Port nnd ein Sdiiebcregister in, FPGA das die 
le., Werte speidie.rl, realisicrt werden. Der Kingabc-Port best, die Klen.'ente mit 
r Sc.hr.uwe.le S, und die SehicbcregiKier erzeugen vcrzbgerle Version™ dieses 
..gabe-Dat.enstro.1^. Die Distanz D bcrtimmt die Anzahl der Register zwischcii 
ei tingahen, also die Verzogernngsstiifen. 

■ vor dererst-en Scl.leifeniteration nicht alle Vektoreingaben aufeinn.al gelesen wer- 
" : l>e " f : , r:' W ,' r """ ,wch rino =»^"'Iic».e ! mehrejc Takte danen.de Ausfiil.n.ngs- 
asc FJEL. ,n der die ScJ.ieberegister oefflllt werden. In der KXEC-I'l.asc mfiinen 
nn nur m.ch - iiberlappend mit den Berer.hn.mgen der vorl.ergel.e.ule., Ileratio- 
> - - die ncucn Wert e der Scliicberegistcr eingelesen werden. 
•bildnng 5.7 zeigt die Beispicl-Sehaltung fiir nnscr normalisiertes Beinpielpro- 
•mm a uk Abhiidui.g 5.4. Fiir die Zugriffe auf X[S], die alle in einer Ac.uivalenz- 
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X[I-S] 



X[SJ- 



Abbildung 5.7: Beispiel-Schaltung mit Eingabe-Schieberegister 
iSS" Eingabe-Schieberegister eingefiig, Es ist in der Abbi.dung 

^otz der Optimiernngder Vektor-Eingaben isteinesoerzeugteSchaltune noch recht 
.neffiz.ent, da der ganze Schleifcnrumpf in einem Takt ausgewertet wird Wet^ 
Irin. S ' gI,ai T VC f z °g CTlln g en errcicl.bare Taktfrequenz klein und der DuKLatz 

fE Y K e , L ^ tUn , g einer PipeIine wird abcr *esenMch durch ihren Durcfitz 
b^Zf n C GcSchwind ^ keit . mit ** *« SchJeifeniterationen beSitet weSn' 
bestimmt. Dagegen ,st die Zeit z« m Fiillen der Pipeline in der keine Erlw! 
gehefert werden, bei langen Schleifen vernachlassigbar. Ergebmsse 

SS^r^n" ?\ ,rchsatz einer Schaltung d..rch Pipelining erhoht werden Dies 
erhoht ihren Parallelitatsgrad, indem nicht m,r Eingaben BerechnuLen „nH A 



Bestimmung der Taktperiode T c 

^Z^Zu^f 1 ^ Einga c be - UHd Aus * abe -*>*s IBr Vektoren ab. Da 
wir von emer Ardmcktnr m ,t e.ner Speicherbank ansgchen (siehe Abschnitt 6 n 

SZZ^ZZ?^ oder J r zugriff in ^^^S^: 

d2^ h rSSr ^"; her2 "^ffe innerhalb cines Pipeline-TUctes nacheinaader 
nurcngeiunrt werden. W,r berechuen T c also durch folgende Formel: 



T c := N B xT B + N.x T A 



(5.12) 



.?nd^A 1 ^ d ' e Anzahl derEin ^e- b«r. Ausgabe-Ports, und T e 

S und r » - 2 T ^ bzW - Schreiben eines W °*« "« »°kale„ Speicher 

£ auf der ST f° n K der G * Schwindi S keit d « «okale„ RAM und den Frunze , 

£ M d r v?kt^pri u f P ar n T f sis :i a,e ab - Gleichung (5i2 > «*. da « An. 

Vcktor-Ports den Durchsatz der Pipeline bestimmt, und nicht die Zahl der 
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•peratorcn. Es sollten vor allem unnotige Ausgabc-Ports vermieden werden, da das 
chreiben eines Wortes in den RAM 1 anger als das Lesen dauert. 
•ci dcr Bestimrnung von T c mufi die Signal verzogcrung innerhalb dcr Hardware- 
>pcraloren sclbst nirht beriicksichtigt werden, da wir mchrstufige Operaloren 
iil ausrcidicnd vieten intcrncn Pipeline-Stufen aus einer entsprecheuden Modul- 
libliotlick auswahlen konnen. 



*ipr.linmg 

Vir fiigen nun wntcre Pipeline-Stufen in eine Schaltung ein, ura den Durchsatz zu 
rhohen. Da be i ist cs nur sinnvoll, so viele Register binzuzufugen, wie zura Erreichen 
er Taktpr-riodc Tq notig sind, da die Register Hard ware- Ressourcen verbrauchen. 
Vic in Abschniu 4.3.4 erwahnt, mufi beirn Pipelining die Anzahl der eingefugten 
tegister auf alltm nidit-zvklischen Pfadcn von einem Eingabe- Register zu einem 
)perator und zu don Ausgangen gleicb sein. Dicsc Registerzabl cntspricht der Laienz 
les Operators, also der Vcrzogerung in Pipeline-Takten, mit der gultige Werte an den 
)pcratorcn ankommeiK Falls mehrstufige Operatoren in der Schaltung vorkommen, 
nusscn auch die intern cn Register bcim Pipelining bcrucksichtigt werden. Darin muB 
Jso auch cin Registorausglcich durd)gefuhrt werden; (Zur Vereinfachung konnen wir 
nnchmcn, daft sich bei alien inehrstufigen. Operatoren ein Register direkt vor dem 
\usgang befindct.) 

3ieso Kordernngcn konnen durcb ein einfaches Verfahren zum Einfiigen von Pipeline- 
legistcrn erfiillt wcrden. Da bei wcrden a He Knoten (d. h. die Operatoren und Ein- 
;nberegisicr dor Schaltung) topologisch sortiert durchlaufen, so dafi jeder Knoten 
;rst dann bcarbcitei wird, wenn alle seine Eingaben bereits bearbeitet wurden. So 
vird fur jeden Knoten die akkuniulicrte Signal vcrzogerung und die Latenz berechnet. 
"alls die Signalvcrzogerung groficr als Tc wird oder die Latenz der Eingaben ungleich 
st, werden Register in die entsprechenden Eingabckanten eingcfiigt. Allerdings wird 
labei die Zald der RcgistOi nicht optimiert, was zu sehr groBen Schaltungen rnit vie- 
cn unnotigen Rc»istern fuhren kann. Wir konimcn deshalb in Abschnitt 5.4.2 auf 
"I ieses Problem zn ruck. 

3urch Pipelining andcrt sich neben der Signalvcrzogerung. audi das externe Zeit- 
/erhalten einer Schaltung: Die Ausgabe-Wcrte einer Iteration liegen nicht mehr am 
2ndc des Taktes. in dem die Eingaben bereitgcstellt wurden. an den Ausgangen 
*n, sondern erst einigc Takte spater. Folglich muB die Pipeline nach dem Einle- 
>en der lctzten Eingabcwerte weiter getaktet werden, bis sie lecrgclaiifon ist, und 
Tic Ausgahen inusscn verzogert gespeichert werden. Die Latenz mutt also von der 
Pipeline-Steucrungseinbeit bcachtet werden. 

Deshalb fiigen wir eine Kctte hintereinandergesciialteter Klipflops zur Schaltung. 
:iinzu, deren Lange dcr niaxiinalen Latenz eines Ausgangs eutsprirJit. Das crslc 
Plipflop wird vom VALJD-Signal gesetzt, sobald alle Eingabe- Register gultige Wertc 
iiaben (also am Beginn der EX EC- Phase) und zuruckgesetzt, nachdem ilic Eingabe- 
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Daten allcr Iterat.onc.. geJesen wurden. Damit ist jedes Flipflop ein Gultigkcits-Bit 
das Mgnahaert, ob d,e Werte einer Pipeline-Stufe giiltig sind oder nicht. Die EXEC- 

JAUD W 0^fn ?' T" *" lem ! Giilti ^itsbit zurfickgesetzt wird (Signal 

VALID.OUT). Dieses Signal stcuert auch die Vektor-Ausgabe-Ports 

Abbildimg 5 8 zeigt die Beispiel-Schaltung, nachdem zwei zusatzliche Pipeline- 

2S^T rjTZ\ dtt S *™ We ™&™& der drei hintereinandergeschleten 
Addierer) und die Gultigkeits-Bils eingeffigt wurden. 



VALID 




Abbildung 5.8. Beispiel-Schaltung nach Pipelining 



VALID 
OUT 

X[l-S] 



5.3 Pipelines fur Schleifen mit regularen Ab- 
hangigkeiten 

Im vorhergehciiden Abschnitt wnrde cin neuartiges Verfalircn zur Synthese von 

ISIS TV Sfh, ? Cn ei ' ,eS ^«- tie »en Eingabep^rr 
gcslcllt. »>e P.pchnes m.tzen die Hard ware- Opcraloren durcb eine uberlaDDte 
Ausfurmmg der Schleifen-Iteralioncn optimal aus. uoenappte 

if° C] Li- das , Vcrfahren auf vektorisierbare Schleifen ohne echte schlcifeneetra 
gene Abhangigkeiten beschrankt. Diesc Klasse von Schleifen ist zwar grofier ^ dTe^ 
der parallel^erbaren Schleifen, aber immer nodi recht eingeschranTt so d J Tauch * 
nur bestiminte Pipelines synthetisierl werden konnen. Die in Pipelines einfeen zj 
reahs.cm.den Pralix-Operatoren (vgl. Abschnitt 4.3.2) kannen beTspLTswe^ic^ 
S2Tl werden. Dcshalb erweiten, wir in dicsem Abschnitt die?<lasTe der vek 
•or s.crbaren Schl ei fe„, indem anch bcstim.nte echte schleifengctragenrAbhanSK 
kcten .ylassen werden. Die Pipcline-Synthese wird entsprechend erweitert Z£ 
..nter anderem auch die Pranx-Operatoren generiert werden konnen ' 

Si' 0 ?',? * W kurz eH5 » te rt. wie mit dem erweiterten Synthese-Verfahren neben 
FOR-Schldfen auch WHILE-SchJeifen bearbeitet werden iLhT 



:,.3. MPEUKES FUR SCHLE1FEI* MIT AIMANOICKEITKN 57 
5.3.1 Erweiterte Veklorisicrung 

Wir l.abcn in AUsdmilt 5.2.2 festgesldlt, daB in vckU>ri S iorl»iron Sd.lcifc. koine 
Aus-alu- eincr vorangehendcn Iteration nls Kingabc dcr aklndlm, Iteration ve.r- 
wende, wcrden darf. Die* UwJinpui.R wild nun ahgcscliwiicl.t. Dcnn wir konneu 
„,,„ t-ind solcl.cn Ab».&iiftiftkd« cine Pipeline fur die Schlcife synlbelisicrcn, wenn 
'die weiiem-vcrwendendcn A.isgaUwerto direkt in Pipeline- lbgistm. gcspeicbcrt 
mi «l w ,i.emrwendet we.de. konnc. Sic diirfen also nicht erst (n»L .mbekannter 
V,t7.>'.t.iii«) iu den wterni... Speiche. gewJ.ricben «nd von dort wiedor c.ngele- 
w!'rd«i 1W dirckte Weiterve. wcndm.g ist jedod. nur dam. ..Higher,, wenn die 
Abha.x-igkeit (»ad. dcr li.itialisi<-r»n») in j«d« Iteration mid mil dcr gleicl.cn Di- 
«ant anfiriU. Wir xmn.cn sie dai.n rujvlorc Abhangigkeit mid kom.en ae dutch 
«„ Sd.kWgfetcr. dcssen U.*e do, Distant dcr Abhangigkeit entspr.cht m der 
Pipeline n-alisiere,,. Die Klasse dcr voktorisicrbaren Sd.lcifen wird also auf solclie 
mil rognlSren scbldfeiiROtragcwcn Abhangigkeiten erwcitert. 

Edit* Ahl.a.ipj R kritcn, die von skalaron Variablen vrrnmadit wcrden, sind .miner 
rc-nliir mil der Distanz D - 1, da die Weru-. dirckt in dcr nad.stcn Scl.lc, fen iteration 
weitc, verwendet wcrden. Sic kon.icn tlurch cir. einzclnes Register in eincr Pipeline 
rcalisicrl werden. 

Bri Veku.r-Ahh5ngipkeiic.ii sind diejcni K c>. Ffille dcr Analyse ans Abschn.U 5.2 2 
,, K .,lar. fin die S >± -V, - ft »d die Znsat^edingnng 0 < ^ < N 
Da..,, lieot nan.lich fiir alio Paa.< (7,./) - {IJ -I ^) b.tervall [0. -N] erne 
Abhiiny.igkeit mil dcr fesl.cn Disl.w. D = ^5— vor. 

Abl.iii.giskcit.en ...it .9, i- S 2 sind jedod. *m*«/5r und konm-n nicht bchandclt wer- 

Ht-ixpiel: Nad. eincr klcinru A..den...g cnlhalt die an. Ei.dc von Absd.n.tt 5.2.2 
vorgcsldlve Bcispiclsc.hle.ifc cine cditc sohleifcngetraaei.e Ablia...g. R keit: 

FOR I := 0 TO N DO 

XLI+2] := XII] + X[I+1]; 
END 

\,n. is. i.-dc Iteration von dm mi vurl.org* henden Iterationcn ot-.l.t abl.ai.gig Die 
AU.andpkdtei. sind abcr rcy.da. (mil den Distant. I) = 1 nnd I) -- 2) da fur 
alle imlcxausdriickc S - 1 gib. Deshalb koni.cn wir in. nacbslcn Al.srl.n.tt. f..r d.ese 
Schlcife cine Pipeline erzengen. 

5.3.2 Fipelme-Synthese mit Ruckkopphinsss&ykloii 

Nachden. n-g.ilSrf Abl.an-i^keitcn def.ni. rt. und r.nalysiert w.ml.-n, wird ... 
.\bv C i.,»!i :■ vciifirMcih-e Pipcliiu-Synthese a«r Sd.lciron >»M sold,.-.. Abl..... r ..r. 
kci.cn crwciu-,1. !)a Z u ist narh dem Viinliigen der Kin R .ib«-m.«i- »"■' 
PipMk.ii.* -in v.eiu-rer BearbcituM-sschriU notig. Mr m K l Hr.rkk..|.pl....:v ^ 
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fur die regulareii Abhangigkeitcn in die Schaltung ein. Durch diese Riickkopplun- 
gen ergebcu sich audi fur das nachfolgcnde Pipelining neue Einschrankungen, die in 
inanchen Fallen die Erzeugung effizi enter Pipelines verhindern konnen. 
Wir betrachten zuerst den cinfacheren Fall der Abhangigkeiten, die von skalaren 
Variablcn vcrursacht werden. Danach slcllen wir eine Transformation vor, die die 
komplizierteren Vcktor-Abhangigkeiten auf den einfacheren Fall zuriickfuhreu, und 
definicrcn eine zusatzliche Pipelining-Bedingung. 



TYPE SCARD = [0..65S35]; (* 16-bit cardinal *) 
VAR S: C0..1]; 

X: ARRAY [0. .1] .[0..N3 OF SCARD; 

RAND: SCARD; 

S := 0; (* X[0] is source array *) 
RAND := l; (* initialize random number *) 
FOR ITER := 1 TO MAXITER DO. (* LI *) 
FOR I := 0 TO N-3 DO (* N(L2) *) 

IF (15 IN BITSET(RAND) ) THEN 

RAND — SCARD(BITSET(2 * RAND) / {14,13,12,10,8,6,3,0}); 
ELSE 

RAND := 2 * RAND; 
END; 

XCl-S.I+3] := 0; 

X[l-S,I+3] := X[l-S,I+3] + X[S,I+3j DIV 4; 
X[l-S,I+3] X[l-S,I+3] + X[S,I+2] DIV 4; 
X[l-S,I+3] :« XCl-S,I+3D + X[S,I+l] DIV 4; 
X[l-S,I+3] X[1-S,I+3D + X[S,I] DIV 4; 
XEl-S,I+3] XCl-S.I+3] + RAND; 
END; 

S := 1 - S; 
END 



Abbildung 5.9: Erweitertes normalisiertes PrograminbeispicI FIR-Filter 

Zunachst erweitem wir abcr unser durchgehendes Program mbeispiel aus Abbildung 
5.4. In Abbildung 5.9 wurde das normalisicrte Programm durch ein linear riick- 
gekoppekes Schieberegistcr zur Generierung einer Zufallszahl erganzt. 9 Die ska- 
lare Variable RAND verursacht eine rcgiilare schlcifengetragene Abbangigkeit. Ab- 
bildung 5.10 zeigt die Schaltung fur dieses Beispiel nach dem Einfugen der Eingabe- 
Schieberegister. Man sieht, wie die bedingtc Zuweisung an RAND durch eiuen von der 
Bcdinguiig gesteucrten Multiplexer realisiert wird. 

9 In MODULA-2 bezeichnet / den XOR-Operator und {14,13,12.10,8,6,3,0} den Bilvektor 
'OlllOlOlOlOOlOOr fiir den Dalentyp BITSET. 
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Abbildung 5.10: SchaKnng fur erweilertes Fill-Filter 



Skalare R.uckkopplungsvariablen 

Wir bezeichnen ska I a re Yariablc'n. die cine sddejfcngctnigcnc Abhangigkeit verursa- 
chen, ate ukalare HiU hkojqihniywariablt n.to fur sie Jivrkkopphingcniii die Pipeline- 
Schallung cingefngv weiden mussen. Dies soli anhand dor Abbildung 5.10 erlautert 
werden: Da in die Schalt ung nodi kcine zusat/Iirheii Pipeline-St ufen e.nigcfiigt wur- 
don. wird nach dem Pipeline- Ausfuhningsmodell (nach dem Laden der Schiebere- 
gist-ci) in jedem Pipeline- Takt cine Sciileifenileration bcrcchncl. Dazu werden nor- 
inalcrweise die WVrte. mil dencn die skalaren Eingaboregister vor dor EXEC- Phase 
initialiser! wnrden. verwendei. IJandeli c* sich abcr urn cine Rnckkopphingsvariabie, 
gilt die hniialisicrung nnr fur die erste Iteration., also den ersten Pipeline- Takt. Ab 
drni stweiu-n Takt mutt daf Register innuer den ii» vorhergehenden Takt bcrechne- 
l en' Wert enthahen. Wir ureidten dies, indem ein Multiplexer vor dejn Register ein- 
gefiij;!. wird. Er waldt gcMeueii von cmeni externa* Slcuei signal — wahrend der 
LOAD-Pbase den Eingabcwert und wahrend der EX EC-Phase den ruckgekoppclten 
Ausgabcwerl. Dies wmdc in Abbildung y.ll fur die Variable RAND durchgeftihrt. 
Durch dicsc Riickkoppl iinf*<-n entstehi cine zyklische Schaltung. line stark zusam- 
nniihiingendeu Komponcnlcn nennen wir Hiichkopphnit^zyhlert. Dabei komicn dnrcli 
Variablen iviit gegenseit igen Ahhan<Mgkeiicn audi Zyklcn mil melirer^i Hcgistern 
enim-hcn. Das Srhaltwcrk blriht dabci synchron. wcun die Taki frequeii'/. die. Signal- 
verzogcrung zwischen <len Hegistcni bernr.ksicht.igt. 

Die erzeu&tc Scbaltung fimktionierl jedoch nodi nic.ht korrckt, da jedes skalarc 
Eingabc-Registcr seincn Wert nnr bei seiner Inilialisierung und — falls es eiu Ruck- 
kopphmgsrcgiMer ist — in der EX EC"-- Phase andern darf, nirbt abcr wahrend der 
Inilialisierung der andcren Kingiinge und wahrend der FILE- Phase. Dies niuB dureh 
line fcorrekte Ansteiienmg der ('lodi-Knable-Eiiigaiigc der Register gewahrlristel. 
werden. Die da fur noiigt bogik wird iui fihernadistcn AbschniM beim Pipelining 
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Abbildung 5.11: Schaltung fur erweitertes FIR-Filter mil Ruckkopplung 
hinzugefugt. 



Vektor- Rii ckkopp I u ngen 

Zuvor betrachtcn wir die Abhangigkeiten durch Vektorcn: Statt fur sie direkt 
Riickkopplungen 211 cnseugen, transform icrcn wir vor der Pipeline- Synthese alle 
Abhangigkeiten durch Vektorcn in solche durch skalare Hilfsvariablen. Auf diese 
Weise werden Vcktor-Eingabcports gespart, und der Durchsatz der Pipelines wird 
nach Glciclmng (5.12) erhoht. Denn in Schleifcn mit regularen Vektor-Abhangigkei- 
ten (d. h. in linearen Rek 11 r re nzen) vcrwenden mir weirige Iterationen am Anfang 
der Berechming Vcktor-Eingabewerte, wahrend alle folgenden Iterationen die ruck- 
gckoppcltcn Werte vcrwenden. Eingabeports fur diese Vektoren wtirden also kaum 
genutzt werden. 

Die Transformation wird auf dem Zwischencode des Programins durchgefuhrt, aber 
hier zur Vereinfachung anf der Qucllspiach-Ebenc crlautert: 1m Schlcifeiu uinpf wird 
jede Vektor-Eingabe, die von ciner Ausgabe abhangt, durch cine neue Hilfsvariable 
crsetzt. Daun werden an das Ende des Schleifcnrumpfes fur alle Abhangigkeiten mit 
Distanz D = 1 ncue Zuwcisnngcn angchangt, die den Hilfsvariablen die Werte zuwei- 
sen, von denen die urspnmglichen Vektor-Eingaben abhangen. Fur Abhangigkeiten 
mit einer Distanz D > 1 werden zusatzliche Hilfsvariablen erzeugt und am Ende 
des Schlcifenrumpfes zugewiesen, so daB die indirekten Abhangigkeiten durch eine 
entsprechende Zahl von Hilfsvariablen ersetzt werden. SchlieBlich werden vor der 
Schleifc Zuweisungen eingefiigt, die den Hilfsvariablen die urspninglichen Vektor- 
Eingabewerte zuweiscn. So kann die oben fur skalare Ruckkopplungsvariablen ent- 
wickclte Methode fur alle Abhangigkeiten eingesetzt werden. 

Beispiel: Der Hnke Teil der Abbildung 5.12 zeigt die Beispiel-Schleife aus Abschnitt 
5.3.1. Mit den angegebenen Initialisierungen berechnet sie die Fibonacci-Zahlen und 
schreibt sie in einen Vektor. Die Schleife wird folgendermaflen in den in Abbildung 
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X[0] :« 0; 
X[l] := 1; 

X[03 := 0; TMPI X[0j; 

X[l] :« 1; THP2 := X[l]; 

FOR I := 0 TO II DO FOR I := 0 TO N DO 

X[I«23 := X 133 ■* Hl-Uj; X[3-+2] .:= TMPI + TMP2; 

END TMPI := TMP2; 

TMP2 : = X[I+2] ; 

END 

Abbildung Tj.12: "JVansfon nation dcr Fibonacci-Sdileife 



GI 



T) !2 redils gczeigten Program inabsdmiu iraiisforiniert.: Die Veklor-Eingaben X[I] 
uud X[l+1] wcrdeu durdi die skalarcn IljJfsvariahlen TMPI mid TMP2 ersetzt. Da 
TKP2 (X[T+l]) direki, d. h. mil. Distanz O = 1, von der Vektor-Ausgabe X[I+2] 
abhangt, wire! am Sdildfenei.de THP2 := X[H2] gesetzl. TMPI (X[I]) hangt mit 
D i st ail z £> = 2 von X[I+2] ab. Deshaib wird TMPI der Wert von X[I+2] in der 
vorhcrgdienden Iteration, also der aktucllc Wert von TMP2 zugcwicscii. Dabei musscn 
die Znweisungcn in der ridiligcn Rcihenfolge crfoJgcn. 



TMPI 



TMP2 ■ 




tmp2 ™ pi pf^^ r^ 

X[U2] TMP2 ~^F^ ■ I / 
TMPI - lm2 ^Z j~^ \ TMP2p — 




(«) (b) 

Abbildung 5J3: SchalUmgen fur Fibonacci-Sdileife 

Abbildung 5.13 zeigt die rcsruhierende azykliscbc Sdialtuiig (a) und die Schaltung 
.mil Ruckkopphmgcn (b). Durdi die Hilfevariablen TMPI uud TKP2 cnlsteht ein zwei- 
stufigcr Ruckkopplungszykhis. Die Pipeline-Ausfuhrung wird also crmoglichl, da 
die beredineten Wertc nidit nur im lokalen Speidier (fiber den Ausgang XCl+2]), 
sondcrn audi zur direkten Wicdcrvcrwendung in den Rcgistcrn TMPI und TMP2 ge- 
speichert werden. Da in dieser Sdialtung jedoch nur ein Operator vorkoinmt, lohnt 
sic sich nur als Bestandteil einer groBeren Schaltung. * n 



Pipelining 

Fur das Pipelining der SdiaHungen ergibt sich durch die IfcVJtkopplimgszyklcii 
erne weiterc Einsdiraufcung: VVie wir in Absdmitt 4.3.4 gesdirn habrn, durfen in 
nerhalb der Zyklen einer Schaltung keine Register eingefiigt wc.nlm. Wir konnm 
also die Signal verzogerung (und damit die erreichbare Taktperiodc T r ) nidit mrhr 
durch znsatzlichc Pipdine-Stufen bclicbig verringern. Innerhalb drr Zykl™ kanu dir 
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Verzogerung nur durch Retiming verringert werden. 10 

Folglich kann die durch Formel (5.12) berechnete Taktperiode nicht erreicht werden 
wenn in Ruckkopplungszyklen hohere Signalverzogerungen auftreten. Wir berech- 
nen diese Verzogerung, indem wir fur alle kombinatorischen Pfade in dem Zyklus 
die erwarteten Signalverzogerungen der Operatoren aus einer Modul-Bibliothek fur 
die verwendcte FPGA-Familie entnehmen und aufsummieren. Der in Formel (5 12) 
berechnete Wert fur T c wird dann folgendermaBen korrigiert: 

T c •- max(T c ,max. Signalverzogerung der Ruckkopplungszyklen) (5.13) 

In den azyklischen Teil der Schaltung konnen nun wie in Abschnitt 5 2 3 soviele 
Stufen wje notig eingefugt werden, um die Taktperiode T c zu erreichen. 
Wie bereits weiter oben erwahnt wurde, muB beim Pipelining noch Clock-Enable- 
Logik fur die skalarcn Eingaberegister generiert werden. Dies ist fflr die nicht-riick 
gekoppelten Register recht einfach: Da sie nur einmal initialisiert werden verwenden 
sie em cxternes Eingabe-Steuersignal als Clock-Enable-Signal. Wir brauchen zwar 
fur jedes Register ein eigenes Steuersignal, konnen dafur aber einen gemeinsamen 
Eingabebus fur alle Register verwenden, da das Steuersignal nur das gewiinschte 
Register aktiviert. 

Die ruckgekoppclten Register mfissen jedoch bei der Initialisierung und in der 
EXEC-Phase aktiviert werden. Bei mehrstufigen Pipelines darf sich der gespeichcrle 
Wert aber auch nur dann andern, wenn die Werte der Pipeline-Stufe, in welcher der 
Ruckkopplungszyklus liegt, gultig sind. Andernfalls konnte der Eingabe- oder der 
letzte Ausgabcwert zu friih uberechrieben werden. Deshalb wird das Clock-Enable- 
S.gnal dieser Register durch eine disjunktive Verknupfung des jeweiligen Eingabe- 
Steuersignals und des Gultigkeitsbits der entsprechenden Stufe (Latenz) aktiviert 
Im Gegensatz dazu sind die normalen Pipeline-Register immer aktiviert, da sie in 
jedem Takt einen neuen Datensatz verarbeiten und zwischenspeichern. 
Abbildung 5.14 zeigt die Schaltung fur das erweiterte FIR-Filter, nachdem eine 
nsittzlichc Pipeline-Stufc und die Clock-Enable-Logik eingefugt wurden. Das Re- 
gister RAND hat d.c Latenz i und wird deshalb nach der Initialisierung erst wieder 
aktiviert, wenn die erste Pipcline-Stufe im unteren Teil der Schaltung geffillt ist 
damit am letzten Addierer die Daten einer Iteration gleichzeitig anliegen. 
Wir haben geschen, dafi die Bedingung fur die Ruckkopplungszyklen die erreichbare 
Leistung der Pipelines einschrankt. Man konnte deshalb versuchen, das Programm 
auf hoherer Ebene zu transfonnieren, um den Durchsatz trotz Ruckkopplungszyv 
klen zu erhohen Da aber keine Ansatze, die solche Transformationen automatisch 
durclifuhren, bckannt sind, wurden sie in dieser Arbeit nicht weiter verfolgt. 
Alternativ konnten wir eine synchrone Schaltung skalieren, also alle Register einer 
Pipeline - auch innerhalb von Ruckkopplungszyklen — durch k Register erset- 
zen. Dann lSCt sich durch Retim ing auch die Verzogerung in den Zyklen auf etwa 

,0 Dann muB allerdings auch die Initialisierung der verschobenen Register angepafit werden was 
jedoch nicht immer mdglich ist. s=i*»»' weraen, was j 
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Abbildi.ng5.14: Srhaltung fiir erweiterles FIR-Filler nach Pipelining 

]/* reduzierra. Jrdoch diirfei, dann and, tiur alle k Takte Daten in die Pipeline 
gegeben we.de,,, damil die Uerodmung korrekt bl^ibt. Dcr Durchsatz bleibt also 
msgesan.t gle.d., f.her es wird die A-fad.e Rogisi erwihl gebraucht. Dieses Vcrfahrcn 
lohnt s.d. nur, falls /.• m.abhangige Dai.ennrwne iiberlappt in die Pipeline gelesen 
widen konncn. Da bei nnseren Pipelines jurist die K/A-Bandbrcite und nicht die 
Ruckkopphingszykl™ den Durelisatz der Schalu.ng begrenzen, lohnt sich der Auf- 
wand fur das Erkci.nei. uud Bereitstellcn m.abhangiger D.ntenstiomc jedoch nicht 
Audi d.eser Amalz wurde deshalb hicr nid.t writer verfolgt. 

Gin* weitcrc Mfiglii l.keil zur Opiimiorung von Sd.leifen mit viclen bedi.igten Anwei- 
sungcji SU1K <!.<■ m Ahschnilt 4.3.3 vorg.-svdlte .peknlativc Ausfiihning dar. Dabci 
w.rd der wahrwh, mliehste PUI eines RfuikoppJuiigszyklus optimiert. Die Slcue- 
nmg dcr P.pehne ,..,,6 da.... jedod, so crweitert werden, daB audi die anderen 
la.igsaiiieieii Pfade ausgefiihrt werden koin.en. 



5.3.3 BehiuidJung von WHILE-Schleifen 

His jet.?t wu.de m.r die Pipeline- Synthase fiir nornialisierte KOR-Sdileifcn betrach- 
lel. Be. ,hnen ist Hie Zahl dcr Sd.leifeniterat ioncn vor Begin,, « lor Au.sf.ihr,.n« be- 
kannl m.d w.rd vo., der Pipdine-Stenc, ungseinl.cit iiberwaeht. I,. ,l, r Pipeline m,.B 
also ken.e llardw.-rr. •/;„ Evaluien.r.g der AbbrucliUilin K iiMg generierl werden. I)as- 
selbe y;,,h na. iirlid. fiir WHII.E-Schleifen, die in normalisierte l-*OK- .S«-|.l«»r<-i a Irans- 
ronniftrt werden ko.i.un. Di<,s ist der Pall, wen,, eim ganzzal.lige Sd.leiren variable in 
jedcr Herat , on i.m einer, ko„ ? ta,.le.i Wert erhoht odor erniedrigi wird nnd die Sehlrif,- 
abbr.cbt, wen,, d.ese Variable einen aulkrhalb der Sddeire restgelegten Crenzw.-n 
iiber- oder nntersclneitci. 

Mil den vorgestclltc, Techniken konnen wir aber keinr YVMILK-S, l.lrife ,{,;;■„ Al. 
bruclibcwnguiig von in. der Schleife berechneten WerU-i, abh.ingf, l.d.a In. Ih.-s 
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1st aber moglich, wenn wir fiir die Abbruchbedingung wie fur eine gew6hn]iche 
Anwe 1S „ng Hardware erzeugen. 1st die Bedingung erfullt, muB dies der pTpeUne 
7 aT ^ - gna,iSiert Werden ' damit die Ausfuhrung der PipeltL bSndet 
^fot J m K mUSSen . die Gm ^^ verandert werden, damit 
nacl.folgenden, berets begonnenen Iterationen nicht gespeichert werden Berelts 
d .rchgcMrte Anden.ngen der Werte in Rnckkoppiu^sregistern konnen jcS 
n.cbt mehr r U ckga„g,g gem acht werden. Deshalb durfen lebendige skXe SS 
kopp^ngsvanab en, deren Werte nach den, Schleifenabbruch also benotigTwerden" 
Jj" S ,f »f£ ™ ^ der ersten Pipcline-Stufe stehen. Die iten die 

Scha.tu„g durch P.pebning zu opthnieren, sind in diesem Fall also efngSSkt 
Noch weniger Optimiernngsmoglichkeiten gibt es in ganz allgemeinen WHILE- 
Schleifen, m denen auch keine Schleifenvariable die in ieder ItTr^T 

L°s n S te h f <ih ! ° fi der erniedrigt ^sSS^TJ7 

fens chtbch (per defin.t.onem) keine Vektoren oder Vektorfelder. Da nach AtecTnitt 
5.2 ] kerne Z U we IslI „g e „ an allgemeine Felder erlaubt sind, durfen im ScnU^umnf 
folghch „ur Znwcsungen an skalare Variablen auftreten. Palls diJTiodSfSSS 
.nnvoll verwendet werden, fuhren sie jedoch zu Rudckopplungsschle^r (D^s L 

kr:;„r;^ 

Prinzipiell konnen also auch fur WHILE-Schleifen Pipeline-Schaltungen synthelisiert 
werden. Da s.ch aber „ur bei der Verarbeitung von Vektoren ein hoW^SSllS 

5.4 Registeroptimierung fiir FPGA-Pipelines 

die Pinolinin* v.r m Abschni " 5-2.3 wurdc jedoch crwahnt, dafi das einfa- 

Sl 7 B " V ' ele U " n6tige R «8 ister ei,,f «gen kann. D*\^ e aber den 

v 

5.4.1 Registerzusammenfassung 

Clock Enable-E,„ gang durch das Gultigkeitsbit gesetzt ist. Deshalb konnen die bei- 
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den Register audi wiswnmeiigcfafil werden. In unsworn durdigelitMuleji Beispiel ist 
dies der Fall, wcnn wir fur das Register RAND die Lat cnz 0 festlcgen line! ein zusatz- 
lichcs Register. vor dem Ausgang RAND cinfiigen. Dieses kami dann mit dem Riick- 
kopphmgsregister RAND zusammengcfaBt werdcn. Abhildung 5J5 zeigt das Ergebnis. 
Es ist funktional aqtii v;ilt-iit zu Abbildung 5.14 und benotigt. gleich vie! Hardware. 
Efi'ektiv wurdc uhtr hinter dem Ruckkopplungszvklus einc weitere Pipcline-Stufe 
eingefiigt. Deslialb uiufi die Sigmilvexzogerung des Zyklus arn Ausgang RAND uicht 
melir berucksichtigl werden. 




OUT 
Xll-S) 



Abbilduug 5.15: Beispiel-Schakung nach Regislerzusammcnfassung 

Da cin Register am Endc eines Ruokkopplungszyklus also die Signalverzogerung 
verringert und audi die im naYhsteii Abschnitt vorgcstdlte Optimienuig vercinfacht, 
fiihrcn wir die Zu*animeiifassung fiir alle Ruckkopplungsregister durch. Wir mussen 
jedocli beachten, dab die Ausgabewcrte jrtzl intern um eincn Takt verzdgcrt werden. 
Beim Pipelining hdun.deln wir die Ruck kopplungszyk Ion deshalb wie gewohnliche 
Opcralorcn mit einem inlernen Register. 

5.4.2 Linearcs Programm zur ' optimal©!* Register- Verteil- 
ung 

Mit dem geradc vorgestelll-en Verfahrcn konnen lokal einige Register eingespart wer- 
den. Ein wcitaus groBercr Efl'ekt wird aber crreir.lit, weiiu die Verteilung aller Regi- 
ster global opliinicrl wird. Desbalb enlwickcln wir in dicsem Absdinitt einc nene for- 
male, auf ganzzahliper linearer Prograirnnierung (cngl. integer linear programming, 
ILP) basierende Optitiiierungsmethode zur Kombination von Register- Ausgleiob und 
Pipelining fur FPGA-Schaltuiigcn. Sie lost das folgendc 

Register- Verteilungs-Problem: 

Finde. fiir cine gegebene Schaltnng eine korrekt nusgeglii licne Pipeline- 
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Schaltung, die mit der minimalen Anzahl FPGA-Flipflops die geeebene 
Taktperiode C T erreicht. 

Da in de^ gegebenen SchaJtungen interne Register in den Riickkopplungszyklen 
.mtjahs.ert und direkt ausgelesen werden, dfirfen sie bei der OptinLuL nSt 
verandcrt werden. Folglich kann das Retiming-Verfahren (Abschnitt 4.3.4) nicht un- 
verandert fur das Verteilungs-Problem eingesetzt werden, da es nur dis exteme 
Verhnlten der Schaltung gleich laflt, aber nicht die internen Register. Aufferden! 
"."C d.e P,pel,ne auch ausgeglichen werden, falls Operatoren mit internen Register 
xwko„H„ c „. Aber auch das reine Ausgleichs-Verfahren von Gao (Abschnitt 4-3 
•si nicht ausctzbar da es fur azyklische Programm-Graphen in Datenflufi-Rechnern 

leu oder ...dmduelle Verzogerungen der Operatoren beriicksichtigt. Wir kombinieren 
rieshab R, tlm ,„g nnd das Verfahren von Gao und erweitern die Methode so, di sle 
aucl, d,e unreeclmaO.ge Flipflop-Verteilung in vielen FPGA-Familien berflcksicntigl 

Vorverarbeitung und Notation 

Beim Losen cines ILP werden ganzzahlige Variablenwerte bestimmt, die eine lineare 
fotcu/urtaum unter Beriicksichtigung ciner Menge linearer Bedingungen (IjJZ 
£ lolZTr 1 - St ei V kombinatorisches Opti.nierungsproblem als ein soJches 
*ent geS Zert™ " *" ** ^-^-Bound-A.gorithmen efE- 

S a ? , £ r d ' e Re »»tc»usammenfas S ung aus Abschnitt 5.4.1 durchgefuhrt 

■G - % E LP /r? eren - ^ betrad ' ten W5r die Schaltu "g fo -al als She* 
rente. / r l?'^" Kn0t ™ ge * «nd der Kantenmenge E C N x M. Desweite- 

tcn */ c I d J M ^ f m ^ beregiSter ' ° C N die Men * e der Ausgabeknc- 
vli p t 66 dCr Vcktor -Ei«g*beregister, AI 0 ein spezielles, ausgewahltes 

ill k TT,' ™ dP ^ N die ^r Pseudo-Operatore„, S die S 

Logik enthallcn (z. B. konstante Schiebeoperatoren). 

Um eine Kostenfunktion und Bedingungen aufstellen zu konnen, muB G vorverarbei- 
tet werden : Zucrst w.rd jeder Ruckkopplungszyklus durch einen Superkno t7n erTetS 
ten "of U^t T 5tZHChe RCgiSter Ver&ndert werden Wir erhl' 

Pipe e- S S ,S ? e H ?f e "c Die ,^^'- also die Zahl der internen 
auh llf r- Z ^ d f n Sl 'P erk » oten («8«n der Registerzusammenfassung) 
auf 1 gesetzt. Fur d.c rem kombinatorischen Operatoren sei NL ( = 0, und fur die 
mehrstufigen Operatoren cntspreche der Anzahl der internen Register 
Danach werden die Schieberegister der verz6gerten Vektoreingaben entfernt da sie 
Gegenstand der Optimierung sind. Stattdessen wird eine Kante von deTemen Bin 

sSjCj? *r, c r a £' dem die verz6gerte Eingabe 

In S; n / ? t ? L,J ' Wkd ai ' f diC ben6t, 'S te Anzahl der VerzogemngLstu- 
fen (d>e D.stanz der Vektorzugriffe) gesetzt. Fur alle anderen Kanten JeL^Tq 
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Wir entfcrncn audi (lie Eingange selbst, da sic durdi Hire Register repraschticrt 
werden^ und die fur die Optimierung irrelcvanten Konslantcn. N enthalt dann also 
nur noch Operatorcn, Supcrknoten, Eingaberegister unci Ausgabeknoten. Abbildnng 
5.1 C zeigt G fur u user Heispiel. Dabei gilt NL = 0 und EL = 0, falls nichts anderes 
vennerkt ist. Der Superknotcn fiir den Ruckkopplungszyklus.um RAND ist doppclt 
eingcrahmt. 



RAND 



T - .15 ns 



W- 15 

T* *(>ns 



nl- I j : ^\^J 

, f * N W»I4 

w=i6 Cp' V4 J t~ pm lr>iv4j Tg<)BS 

|eL = 0 EL - 1 



X[SJ+33 




Abbilduug 5.16: Vorverarbciteter Graph G 



Fur die Optimierung sincl nodi weiterc Eigenschaftcn der Schaltung relevant: Die 
Wort I singe der Opcrator-Ausgangc M'*,* wird verwendet, uni dicgenaue Anzahl der ge- 
brauchf.cn Flipflops zu bestirnmeii, und 'J)j ist die Signalverzogerung cines Operators 
j beziiglicli seiner Kin gab c von Knoten i. Fur Knoten j, die Rnckkopphmgszyklen 
oclcr mehrsUifigc Operatorcn reprasentieren, ist TJj die Verzogcnmg vom Eingang 
iiber die Knnte (i, j) zuni ersten i liter nen Register. 

Fur die zu crwartende Yerzoj.'O.rung.durdi die Yerdrahtung des FPGA wird eine 
konstantc durchsdmittlidie YVrz6ge.ru ngen zu jedein Tij addiert. 11 Um eine funkti- 
onsfahige Schallung zu garanticren, mnfi Tij < 'J'c fiir allc Kanten gcltcn. In 

Abbildnng 5.16 sind audi lieispielwcrle fur dicse Eingabedafcen cingctragen. 12 
A us den Liiigabtxhtien werden die folgendcn Wcrtc, die allc nicht-ncgative Ganzzah- 
lcn sind. borechnei: tU ist die maximalc akkumulicrlc Verzogerung zwischen einein 
Register und dem Ausgang von Operator i. Tj und s; zalilen die benotigtcn Register 
und werden in der Kristcnfunktion verwendet. SddicBlich ist f,- die Anzahl der Regi- 
ster auf einem Pfad von eincm Vektor-Eingabeport zu Knoten i, d. h. seine Lato.nz. 
Weil die Anzahl der Register, die auf alien Ffaden zum Knoten i ciugcfugt werden, 
festlcgt. ist cine ausgeglidienc Pipeline garantiert. Tabelle 5.1 faftt die verwendetc 
Notation zusanimen. 



11 Die U\ I siich i idie n Wr/,6gerungf:t) durch Verdrahtung konuen nur schr srbwer grnaunr Krscliiity.l 
werden. 

,2 Es uriirdc: die vereinfruhendr Ain;ahme gnmacht/dafi die Vcr^ogRrungcii fiir allc KinK.-iiif;slt;int<n 
eincs KnoU-ns ftleich sind. Dfsluilb ist nur cin Wert T fur jeden Knoten eingctragpn. 
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T c 

NLi 

BLij 



Eingabewerte 



Taktperiode (in ns) 
Knotenlatenz des Knoten i 
Kantenlatenz der Kante (ij) 
Wortlange des Ausgangs des Knoten i 

Beredmete Werte ~ 



di 

Si 

ti 



: — — »Mtui JiC n; wer te 



Tabelle 5.1: Notation 
Kostenfunktion 

gistcr in verschiedenen auSSSi 5 ♦ ^ ' aufsummi «* werden. Da Re- 

werden. Dies 1st die Zahl r D X Sn" 88 f 1 RcgiSter " Kette berucksichtigt 

teine .usStalicben Logikbl&ke benTt h ■ be f*? net die ZahI d <* Flipflops, die 
Operators zusammen in S g ,* 8,6 m,t der korabin atori S che„ Logik des 
ein Register in ^^^ { otT< ^T, ^ * ^ 

ohne ko.nbinatorische Logik und bd £hL (^ A' ^ Pseudoo Peratoren 
•st auch nur bei FPGA Family. be \ m u ehrslufi sen Operatoren. Diese Einsparung 
in einem l^^^^^f^' * "atorische Logik und Flipflops 
weggelassen werden RuniI,en kann die ™«*e Sumroe einfach 



Bedi 



mgungen 



K^r 8 ™ definieren d,e 2u, ^ n 

Fur alle E,„g ab ereg,ster , ist die akkumulierte Vcrzogenmg 0: 



W€/:</ '=° (5.15) 



Fur das ausgewahlte Vektor-Eingaben^,,, tlas a|s „ 



'Ktigspunkt fur die La- 
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tcnzen der anderen Register verwendel wird, ist die Latenz 0: 

fis kann hochstens ein Register durcb Kombination mit Operator-Logik eingespart 
werden. Und dies nur danu, we»n iiberhaupt ein Register instanziert wurde: 

VieN:*i<1,Si<ri (5.17) 
Bei keinem Knoten darr die akkumulierte Verzogerung groBer als die To.ktperiode 

VieN:di<T c ( 5 - 18 ) 

Die Kanten von G ordnen die Operator- A usfiihriing: Folglich mufi fur a»e Kanten 
(ij) die Latenz des Knoten j mindestens so grofi wie die des Knotens i plus die 
interne Knotenlatenz von i sein: 

Die Anzahl der Register an einem Knotcn : Ausgang wird durch seine eigenc Latenz 
und die seines Nachfolgers bestimmt. Also ist r { fur alle Kanten (ij) mindestens 
so grofi wie die Differenz der Latenzen plus die Kantenlatenz minus der internen 
Latenz des Knotens i: 

V(i, j) e E : r,. > - U + ELij - NLi (5:20) 

Die akkumulierte Verzogerung cines Knotens ist mindestens so grofi wic das Maxi- 
mum der Sigrialverzogerung von alien scinen Eingangen: 

VfrfieEzdj^Tij (5.21) 

Fur Kanten (ij), in die kcin Register eingefugt wird (Z, = /,•), ist die akkumulierte 
Vcrxogenuig des Knoten j mindestens die Summe der akknmuliertcn Verzogerung 
des Knoten i und der Signal verzogerung T id . Fur Kanten mit Registern ergibt sich 
keine wcitere Einschrankung fiir df™ 

V(i, j) € E : dj > Tij + * + T c ~ - /,-) (5-22) v 
Registerplazierung 

Die Kostenfunktion und die Bedingungen definieren eine optimalc Losung des ILP. 
1st sie berechnet, wird sic folgcndermaficn vcrwendet, urn die Register tatsachlicli hi 
die Schaltung einzufiigen: 

"Fur Kanten mit Rjtgiste.ni ist - /; < 0. Daraiis folgt T c * ih ~ h) < ~ T C- * < T <^ irnmer 
gilt, ist di + T c • {U ~ h) S 0. Die Bedingtmg entspricht in diesem Fall also tier Ifcdingung 5.21. 
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a^K^T '-ffTJ* de " AUSgang jedeS Knotens »' ^gehangt. Dann werden 
alio Kanten ( t J} d h K t re . t Register z„ ra Knoten ^ e^t, it* 

n i, l,+bL,j - NLi .st. Dadurch werden die Register in alien auseehenden Kan 
ten ernes Knotens aulomatisch kombiniert. Die in Abschnitt 5 9 nE, , 

- -mmer rclat.v z„ den, speziellen Vektor-Eingaberegister AJ 0 Vektor - p ^ts 
Abbildung 5.17 zeigt G mit den berechneten Werten fiir / r „ • 

vers.hicden sind) u„d mit dc„ eingefiigten RelSrn wL^, ( S ' C V ° n ° 
*ine Pipe.ine-SU.fe zwisehen die jLZSS^^Z^Xo" 7** 
h.nt,r den eingefiigten Registern „„d die Ausgaben die II enl' , hab/TP 

be' 'S~tZ i ed ° ch wurde ein ^^^^SS^^S 



— »- [rand ) 



W=16 
T=0ns 
I- ! 




•Q- H xft-s,i7l 

V=I8 W«= 16 
T-40ns T=Ons 



AbbiJdnng 5.17: Graph G n.it berechneten Werten und eingefugten Registe 



Zeitkomplexitat des Verfahrens 

anch so vcrandert warden, daB ein po.yno.nielles Losungsverfanren eLS A„f dt 
rPGA- S pc Z ,fi S cl,e Opti,»ien,ng durch Kombination ,ni OperatcX^^ 
5.1 , muBte allc.rd.ngs verzichtet werden. Und die BedinguLn 5 20 bh s 9 ? -T* 
Z* ^^^™ **^ _ so u.ngefS:^ 
"D.e Wene w„rden mit clem "mixed IP- so lver» [Ber92] berechnet. 
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Bedingungen dcr Form x { - x$ < b auftreten. Das resultierendc 1LP kann immer 
efficient gelost werden, erfordert aber mehr Vorverarbeitungen dcr Schaltuug. 

5.5 Gesamtstruktur der Pipeline-Synthese 

Wahlc in P Kandidaten nadr Algonthnnis Abb. 5.19 aus; /* sctzt KAND(L) */ 
Normalisiere Scbleifen in P nach Algorithmic Abb. 5.20; /* ergibl N(L) */ 
forall Scbleifen N(L) in P mil KAND(L) do /* normalisierte Kandidaten */ 

Fiihre Alias- Analyse fiir N(L) durch [5.1.3, 5.2.1]; 

if MAY-AHase vorhanden then 

KAND(L) := falsch; /* Kandidat scheidet aus */ 

Fuhre A bhangigkeits- Analyse fur N(L) durch [5.2.2^5.3.1]; 

Jfirregnlare Abhangiglceit vorhanden then 
KAND(L) := falsch; 

Transform) ere Vektor-Ruckkopphmgen in skalare Riickkopplungen [5.3.2]; 

Synthetisiere DatenfluB-Graphen G fur Rumpf von N(L) [5.1.4]; 

Fiige Eingaberegister in G ein [5.2.3]; 

Fiige Riickkopplungen in G ein [5.3.2]; 

Fasse Riickkopplungsregister in G zusammen [5.4.1]; 

Besthnme Taktperiode fiir G nach den Formeln (5.12) und (5.13); 

Bestimme optiinalc Register vert eilung fiir G [5.4.2]; 

Fiige Register, Gnltigkeitsbits und Clock-Enahle-Logik in G ein [5.2.3, 5.3.2];- 
Gcbc Schaltuug G aus; 

Abbildung 5.18: Algorithmus zur Pipeline-Synthese in Prograinm P 

Nachdem alle notwcndigeu Mcthoden zur automatischen Synthese effizienter Pipe- 
Hne-Schaltnngeu entwickelt wurdai. kombinieren wirsie nun, uin sic in einem Uber- 
sctzer einzuscty.cn: Abbildung 5.1S zeigt den resiiltierendcn Algorithmus, wobei die 
eckigen Klammem die. AbschniUc cnthalten, in denen die entspredicnden Schritte 
vorgostellt wurden. Die Kandidaten-Auswah) und -Normalisierung werden in eige- 
nen Abbildungen dargcstellt, da sic hie.r ausfiihrlicher als in den vorhergchenden 
Abschnitten besclirieben wcrden. 

Abbildung 5.10 zeigl den Auswahlalgorithirms. Er sctzt das Attribut KAND fur 
alle Schlcifen des Programms. die prinzipiell als Kandidaten in Fragc komincn, also 
nur synthetisicrbare Operationen und kcinc rekursiven Fimktionxaufriifr odcr nicht 
vollstandig ausrolJbarc Schleifen enthaitcn (vgl. Abschnitt 5.1.2); Dazu wird das 
Hilfsattribut KOMP fiir alle Funktionen und Schleifen ver went let, die TvAl cities 
Kandidaten scin konnen. Eine Schleife, die selbst Kandidat ist, kami audi Teil ei- 
nes groflcren Kandidaten sein. wenn sic vollsliiiidig ansrollbar ist. In diesein Fall 
hangt es letztlich von der GroBe der Schleife unci dor verfugbarcn Hardu-arc .ib, fiir 
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Konstruiere Aufrnfgraphen A aller Funktionen F in P- " 

Erken ne rekursiva Funktionen (stark zusammenhangende Kompohenten) in A- 
Konstnnere redu.erten Aufrufbauin A' durch ZusammenfaJn dSer^ 

forall F in A do 

if F rekursiv then 

KOMP(F) := falsch; 
else 

KOMP(F) := wahr; 

r ° r ^" n m d r° ( ^ e ? innend mit d€n Bittern in A' bis zur Wur^]) 
fM " ^f" '» F d° (von innen nach auflen) ' 
KAND(L) := wahr; ' 

if L enthalt gescliachtelte Schleife L' mit - KOMPfL') or 
L ruft Funktion F' auf mit KOMP(F') or 
L enthalt nicht-synthetisierbare Operation O then 

KAND(L) falsch; 
if L vollstandig ausrollbar then 

KOMP(L) := KAND(L); 
else 

if ^ S^then h; r K ° mP01iente muB aiISr0l,bar SCin V 
KOMP(F) := falsch; 
forall Operationen O in F (ohne Schleifen) do 
jr O ist Aufruf von F' mit -. KOMP(F') or 
O ist nicht-synthetisierbare Operation then 
KOMP(F) := falsch; 



Abbildung 5.19: Algorithms z„ r Kandidaten-Auswahl in Program 



m P 



^^^Sfr"^? ■ tb<! " m6glkh " nd ' 0hnend ist - D - Algorith- 
anBen. alle Schlcifen Jeder Funktion von innen nach 

^m^ 1 ^;^ ^ ^ A *»^- in Abbi.dung 5.20 

.Is Software- Version SW W ^^^7"°" ^ Kandidaten ^ wird 
<*c„ Software- m,d Hardware m., P Z " r Lanf!ldt d J™'™d' zwi - 
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Transformiere Indexbereiche aller Felder in Form [0. . N]; 
Ersetze Feld-Zuweisungen clinch einzclne Element- Zmveisungen; 
Konstruiere A und A* wie in Algorithmic Abb. 5 J 9; 

forall Funktionen F in A do (beginnend mil den Blattern in A* bis zur Wurzel) 
forall Schleifen L in F mit KAND(L) do (von inneu nach aufien) 
Kopiere L; Nenne urspriingliche Version SW(L), neue N(L); 
■ Expand iere rekursiv alle Funklionsaufrufe in N(L); 
/* Verwende dabei fiir Schleifen V in den Funktionen immer N(L'). *./ 
Rollc alle in N(L) vorkommenden inneren Schleifen vollstandig aus; 
if N(L) enthalt Schleifen variable I then 

Substituiere alle zusatzlicben Schleifenvariablcn; 
Normalisiere Schleifen-lnitialisierung in die Form I:=0; 
Norm alisiere au f Sch ri ttwei te 1 ; 
if Schleifenbedingung hat die Form 1<=N then 

Transfonniere N(L) in die Form /* FOR-Schleife */ 
FOR I:=0 TO N DO ... END; 
else 

Transformiere N(L) in die Forn} /* normalisierte WHILE-Schleife */ 
I:=0; WHILE <Schleif enbedingung> DO . I:=I+1 END; 
Fulire konzeptionelle Vektortransformation in N(L) durch; 
/* siehe Abschnitt 5.2.1 */ 

Normalisicre Indcjxausdnicke (moglichst in linearen Ausdruck von I); 
else 

Transfonniere N(L) in die Form ./* aJlgemeine WHILE-Schleife */ 
WHILE <Schleif enbedingung> DO . . . END; 

Ahbildung 5.20: Algorithmic zur Scblcifen-NormaJisierung in Programm P 



.6 Bewertung 

i dicscm Kapitel wurde ein neuarUges Verfahren zur Syntho.se von Pipcline- 
:haltnngen aus Schleifen sequcnticller Programme vorgestellt, das bekannte Vekto- 
sicrungsmcthodcn crwcitert imd sie mil der High- Level-Synthe.se fiir rckonfigurier- 
ire Hardware kombinierl. Die Verfahren wurden erstinals so aneinander angepafit, 
iB sie in eineu Ubersetzer integriert werden konnen, urn aus den Schleifen des Ein- 
Lbcprograinnis automalisch Bitslrome zur Konfigurienmg der FPG As zu crzeugen. 
as Verfahren beruht zunacbst aufjdcr Synthesc einfaclier kom!)inatorischer /w>- 
vzessoren fiir den Schleifenrumpf. Ahnliche Verfahren wurden berdts im PRISM- 
-stcni (Abschnitt 4.1) und in einfachen High-Level-Syntliese-Systeincn verwendct. 
:doch ist die Behandhmg von Feldern sowie die damit zusainmenhangendc Alia*- 
nalyse fiir hohere Programmierspraclien in un serein Verfahren mm. 
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Die einfachen Koprozessoren werden uberlappt in einer Pinplin. . r- L ~ 
mfissen die geeipeten Schleifen vektorisiert werden rwh H aus 8<f hrt " 
Feldzugriffe konnen so effiziente SchJtungen d,e die tiZd J* n™* der 
nutzen, synthetisiert werden. Dabei yJ^££££?Sfi^ ^ 
schnut 4.3.3 vorgesteliten Verfahren eine Abhang gkdf Se^^f*^ 
lines synthetisiert werden. AuBerdem ermodicnTd.V nL 1^ - mu6ten ' Pipe " 
benund deren Ko.nbination zu BiSSffiiiS^^S^ E ^ 
dung von Emgabewerlen, wodurch die Zahl der Vektor Vi ? Wlederve ™en- 
Dnrchsatz der PipeHne signifikant l^tl £ ^X^^"* ?" 
der SchleXemterationen in Pipelines erhalten bleibt konneTancn «tu f ^° ^ 
ns,ert werden, die nicht parallel isiert werden tennZn vZXtu^ ^ 
AbhansigkeUen dutch RiickkopplungenTn der IS? T ^ 
werden konnen wir sogar Schleifen mit diesen AbMngigkeiten behandeln T 
kann also erne grofle Klasse von Schleifen bearbeitet werden Kelt ^ 
PipehnesfiirrekonfigurierbareHardwarP .rinH i. dabei E en enerteii 

torrechner, da sie bfueb^O^JZr Z fUgemeiner als Pipelines fur Vek- 
- enth al tcn kc^d ^SS^^Z^^T 
lerdings ist die mogl che KoZhS^r n ? ^ WCrden konnen - A1 " 

U— a,s die der LZ$3^£%£^ ^ ^ ** 

• * ^^^^^^^ -*» vorgesebeo ist, sondern n»r 
reichen des durch di ^ E "n Mn^K. n Z u J* WCrden > wie Er- 

einaclnen FPGA-Fli P Cr m 7nL^t ^ S ° nderD die gCnaue Zahl d ~ 

Hardware mcist schlecht aus Sie f f n ! Vektoris »«^g die Parallelitat der 
beschrankt. Nur T&nderfilto T, £ P 0°!!? " innCrha,b eines Basisblocks 
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ALUs) angcstreht. Audi dies ist fiir die Prosicssoreynthcsc nad.teilig, aber nicht fur 
Pipd.neK, die vo„ den koiitimiierJichcn Datcnslrfliuen optimal ansgcnutzt werden 
Srhhcfibd. ermSglicbi die ciulieillichc Bcliandlnng der Vektordalen, <JaB die Schal- 
«.in R .ct.cjle zi.m Daleiiziigriff fur a)le Prolamine gleidi sind unci deshalb in einer 
genmsrhen Pipelin^SteueriingsciwIioh. inanudl optimicrt werden konnen 
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Kapitel 6 
Kombinierte 

Strukturprogrammierung 



-d -Partitioning. Wir ^^^^^'^^^I'lg^ 
gcnschaften „nd leiten die Sln.Mur e L t k " d ? r rc,eva »^n Maschiaenei- 

der Koprozessore,, durch den Wirt iiber die hLh i /e ?' 50 dle An steuemng 
Verfahren entwickclt, das die Bed „^L.n" S ^ UeB } ,ch Wlrd «n Partitionierungs- 

vckto riS i Crbaren Schl ; ifen Zf^gfzzitr sich die A « s, ^un g d g ; 

Die Ilauptideen dieses Kanit.k "/ "^"J* ,oh «t. enmttelt und answertet. 
licht. 6805 Kdp ' tels ™*» bereits in [Wei96aJ „ nd ,Wci96cI vcroffent- 



6.1 



Relevante Maschineneigenschaften 



•?>" Kekonfig. EinheTf^ 



RAM 



FPGA 







r Wirt 










-^•■-^ 








RAM 




CPU 
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in-Prozessor-Rechner : mid die RE beslcht aus mem FPGA und einer lokalen 
>cicherba»k (siehe Abbildung 6.1). Der Wirt kann viber die Wirt-RE-Schnittstelle 
hreibend nnd lesend auf den lokalen Speichcr der RE und direkt auf (ausgewahlte) 
agister des FPGA zugrei fen und das FPGA steucrn. Ob der ZugrilT auf den loka- 
xi Speicher direkt oder nur iiber das FPGA erfolgen kann, 1st irrelevant. Urn die 
atenubertragung und -vcrarbeitung zu vereinfachen, gehen wir davon aus, da£ die 
ortliii.pe des lokalen Spciclitrs der RE und die Wortlange des Hauptprozessors 
h.cIj snid.und der rr.aximalen Grufle der skalaren Daten nach Definition 1 (Seite 
) entsprechen. Aufierdem kann das FPGA nur komplett in einem Schritt rekonfi- 
riert- werden, wobei auch der lokale Speicher geloscht wird. 

yr in den nachsten Abschnitten vorgestcllte Ubersetzer beruht nur auf diesen Ei- 
iischafteiK 1st abcr nnabhaiigig davon, xvie sie realisiert werden. Da nur Para- 
ncr fur die Geschwindigkeit des Hauptprozessors, des FPGA und der Wirt-RE- 
Imittsielle verwendef. warden, ist die peuaiie Architektur des SP-Rediners und die 
rwendete FPGA-Familic irrelevant. 

1 die von uns verwendcte Experiment ierplattform diesem Model] entspricht, 
nnen die Pipeline-Synthese des vorhergchenden Kapitels und die Verfahren die- 
Kapitels in eincin Ubersetzer- Prototyp auf dieser Plattform getestet werden 
she Kapite) 7). Fiir grofiere SP-Rechner mit mehreren FPGAs und mehreren 
cjclierbiinkcii sind jedoch einigc Erweiterungcu des Modells notwendig. Diese wer- 
1 in AbscJjiiitt 9.4 erortert. 



2 Kombination der Ubersetzungsmethoden 

1 automatisdi voJlstandi«e Anwenchmgen fiir einen allgemeinen SP-Rechner zu er- 
gen, mufJ das SyniJicse- VWfahrcn aus KapiteJ f, mit eincm konventiondlen Uber- 
«ir und Standard-Syntl,esc-VVerkzcu f > t .]i kombiuierl werden. Dafur bietet sich die 
Cits in Abschnitt 2.2 (Seite 10) angegebene Grnndstruktur an: Der Ubersetzer 
t em stquenticHcs Programs ein, wahlt die Hardwarc-Kandidaten au tomattscb 

uud ffihrt die Pipelinc-Synthcse dnrdi. Dann wird der Software- A nteil um An- 
snngen crweitcrt, die din RE konfiguricrcn, znr Laufzcit zwischen Hardware- und 
iware-lmplcnienticrung auswahlcn und gegebenen falls die lolmcnden Koprozes- 
-n auf cier RE aufrufen. Die ganze Anwcndung wird also vom Wirt gesteuert. 
idling 6.2 zeigt die detailKcrle Gesamtstruktur des Obcrsetzers: Dabei cntspre- 
1 tochteckc den Dateicn oder Dal.enstnikt.nrcn, die Programme oder Sci.altungen 
-asenticren, nnd Ovale den Algorithincn, Werkzeugen oder Program mtcilen, die 
eReprasentatjonen (entlangden diirchgezogenen Pfeilen) transform iercn. Im ein- 
en wird das Eingabeprogramm zunadist durch ein konventionellcs Ubersetzer-" 
itend in Zwischencode ubcrsetzt. Dicser wird im red. ten Arm d*-s Diagramm* . 

Funktionen eines Laufzeitsyslems, die die Konfiguralion u..«l Auslrummg dr. 
vornehmen (siehe Abschnitt 6.3.2), iijstrumcnlicrl.. SchliHiiirl, n-^ny.t rin W 
lonelics Backend ein Maschinenprogramiii, da* di.- \'\'C;\ Km,l,;M U . ( ! :5 >»u ( i Mii 
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Eingabeprpgramm 



T 



CUbersetzung >^ 




Pipelines mit PCU 
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Abbildung 6.2: Gesamtslmfctur des Uberselzers 



mft. Der Imke Arm des Diagramms erzeugt den Hardware-Anteil: Die hellerau 
unterlegten Tcile oitsprechen den in Kapitel 5 besprochenen Schritten von der 
Kand.daten-A^wah) bis zur Pipeline-Synthese. Jede lohnende Pipeline wird mit 
pp"' P 'P el '" C -Steueningpcinheit kombinicrt und durch Standard- Werkzeuge in eine 
hFGA-Konfiguration (Bitstrom) transformiert (siehe Abschnitt 6.3.1). 
Die Hardware/Software-Partitionierung (siehe Abschnitt 6.4) entscheidet schliefilich 
aahaad von Software- und Hardware-Sch&tzungen einerseits, fur welche Pipelines 
s.ch die Erzeugung einer FPGA-Konfiguration iiberhaupt lohnt, und andererseits 
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ntcr welchen Umstanden die Hardware-lmplementierung zur Laufzeit tatsachhch 
ervendel wird, inn eine maximale Beschleunigung dcr ganzen Anwcndung zu er- 
alten Sie becinfluBl also die Pipeline- A us wahl auf dcr Hardware-Seite und die 
awumeiriierung auf der Software- Sci to. Die gepunkteten Pfcile m Abbildung 6.2 
aiien an, daB nur Informationen vber Programm- oder Schaltungs-Komponenten 
usgctauscht werden, nicht. aber die Komponenten selbst. 

)ie Siruktur dcr Abbildung 6.2 ahnelt eii.em. Entwurfssystem im Hard ware/ Soft- 
^c-Codcsign. Jedoch erecugen wir hicr keinc getrcnnten Hardware- und Software- 
kw-h'-eibin^en, sondern ein kombinien.es Maschinenprogramm, das die FPGA- 
<oufiguration enthaK und zur Laufzeit die RE automatisch konfiguriert. Aufierdem 
md im Gegensat2 anm Codesign die Auftcilung in Hardware- und Software- Anteile 
licht statisch festgelegt. Viebnchr wird fur jeden Pipeline-Kandidaten eine Software- 
ind eine Hardware-Impleincntieruug erzeugt, aus dcnen erst zur Laufzeit nach den 
n Abschnitt 6.4 entwickelten Kriterien ausgewahlt wird. 

6.3 Ansteuerung der Koprozessoren 

Wir haben bisher die Synthase der Pipelinc-Koprozessoren unabhangig von dem 
Boftwarc-Anteil einer Anwendung betrachtet. Damit die Koprozessoren aber m der 
oben nngegchenen Weise von einem Programm aufgerufen werden konnen, mufi die 
Ansteuerung der Hardware automatisch in die Software integricrt werden. Dies be- 
irifft zunachst die konkrete Einbettung dcr Pipelines in eine lauflahige Schaltung: 
Diesc Hardware-Integration wird in Abschnitt 6.3.1 durch die Entwicklung emer fur 
alle Programme einsetzbaren Pipeline- Stcuerungseinheit erreicht. Danach erfolgt in 
Abschnitt 6.3.2 die Software- Integration durch die Instrumentierung des erzeugten 
Maschinenprogramms mit zusatzlichcn Instruktionen, die die Koprozessoren uber 
die Steucrungseinhe.it ansprechen. 



6.3.1 Pipeline-Steuerungseinheit und Hardware-Integration 

Wie in Kapitel 5 bereits erwahnt wurde, konnen die synthetisierten Pipeline- 
Schaltungen allcine noch keine Berechnungen durch fiihrcn: Sie benotigen dazu ex- 
terneTakt- und Steucrsignale. AuBerdem miissen Eingaben und Ausgaben ziim rich- 
tigen Zeitpunkt an den Eingangen bereitgestellt und von den Ansg&ngen gelesen. 
werden. Dicse Aufgaben — die Verdrahtung der Pipeline mit dem lokalcn Speicher 
und mit der Schnittstelle zum Wirt sowie die Steuerung der Pipeline — werden von 
einer neuartigen Schaltungskomponente, der Pipeline-Steuerungseinheit (engl. pipe-., 
line control unit, PCU) iibernommen. Da die Ansteuerung aller Pipelines ahnlich 
ist, kann-'eine PCU fur alle Programme manuell entworfen und optimiert werden: 
Diese gencrische Komponente wird dann mit der Pipeline-Schaltung konibiniert, urn 
eine funktionsfahige FPGA-Konfigu ration zu erzeugen. ; '''9 
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Abbildung 6.3: RE mit Pipeline-Steuerungseinheit 

Aus den obengenannten Anforderungen ergibt sich folgende Schnittstellc der Steue- 
ningsenmeit: S.e verbindet die Pipeline init den Anschliissen des FPGA die wie- 
derum mit dcro lokalcn Speicher, mit dcr Schnittstelle zum Wirt und mit einem Oder 
mchrcren Taklsignalen vcrknf.pft sind. Abbildung 6.3 zeigt diesc aufiere Sicht, die 
twbettung dcr PCU in einem SP-Rechner. 

Die Steuerungseinheit trennt also die Pipeline von der externen Schnittstelle Dies 
cr eichte. t die Porlierung des Ubersetzers, da die Pipeline-Synthese so von der Ma- 
scJnncnarch.tektur (also von der Schnittstelle zum Wirt und den Details der An- 
ste, ie „ lng d es , okalen Spckhers) UJiabh&Jgig ist Die ein2ige AbhSngigkeit besteht 

o ? ^nericrte Schaltung die aus derSpeicheransteuerung abgeleitete ma- v 
n J ^' alv e".6gen.ng nicht uberschreitcn darf, Bei einer Portierung muB also 
Arli, Tv< ' d ' e maschinens PC2ifischen Details kapselt, manuell an die neue 
yirani ektur angopaBt wcrden. Die Anpassung ist jedoch nur einmal pro Architektur 
(mi alle Programme) notig. 

Die Schnittstelle erlaubt der PCU, Datcn zwischen Wirt, lokalem Speicher und Pi- 
peline auszntauschen. Welche Funktionen dabei im cinzelnen notwendig sind, urn 
aLT S n" en ' n e d er Koprozessoren zu automatisieren, ergibt sich aus den in den 

In I P. 6 " ^ " nd 5 23 definierten des Pipeline-Ausfiihrungsmodells: 

in den Phasen LOAD und STORE vor bzw. nach der Pipeline-Ausfiihrung wer- 
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i DsIcjj zwischen Wirt und RE ubertrageu. Dabci werden skalare Daleu direkt in 
G A-Re^ister geschrieben bzw. skalare Ergcbnisse direkt zuruckgelesen und Felder 

Gauzes in eincn zusammenhangenden AdreBbereich des lokalen Speichers kopiert 
v. von dorl in den Hauptspeicher zuriickkopierl. Und in den Phasen FILL und 
!EC wird die Pipeline ausgefiihrt. Diese Phasen werden zwar vom Wirt gestartet, 
men daim abcr selbstandig ahlaufen, da wahrend der Berechnung nur auf Daten 

lokalen Speicher zugegriflen wird. 

mult nun f ine Steuerungseinheit entwoi fen werden, die es ermoglicht, diese Funk- 
uvu von; Soft ware- Anteil der Amvendung gesteuert durchzufukren. Deshalb ar- 
il ft die PCU in mehrercn Modi, die dnrch Sleuerworter vom Wirt ausgewahlt 
idi:it konnen. Die Sleuerworter setzen enlsprechende Register und Flags in der 
/l), die die gewahlte Funktion realisieren. 

e Auf fiil-i iijig der Pipeline ist die aufwendigste Funktion, da die im lokalen RAM 
■spcie-hcTten Da ten so aufbereilet werden miissen, dafi alle Vektor-Eingaben gleich- 
:ii{? an den Pipeline-Ports anliegcn und alle Ausgaben gleichzcitig gelesen werden. 
es ist ciber niclil direkt moglich, wei) auf der RE' nur eine Speicherbank vorhanden 
. Zu jedein Zeitpunkt kann also nur ein Schreib- oder LesezugrifT slallfinden. In 
serer Schalumg simvHcrt die PCU deshalb gleichzcitige SpeicherzugrifTe, indern sie 
ersi alle Eingabcwerte nachcinander vom Speicher liest und in PCU-Registern zwi- 
uejipuO'ei't, mid dann alle Pipeline- Ausgaben in den Speicher zuruckschreibt. Ein 
peline-Takl besteht also aus mehrercn internen Zyklen, in denen die Sclireib- und 
*czugrifie nachcinander erfolgen. In Abbildung 6.4 sind die dafur noligen internen 
jm poncm.cn der PCU (ohne Stcucrwerk) dargcstellt: Die Speicher-Basisadressen 
:er Ports (BASE REG i) sowie die zugchorigen Schrittweiten (STRIDE i) wer- 
:ii vor der Pipeline- An sfu lining vom Win in die Register gel ad en. Wahrend der 
iisfiihrung werden sie dann in einem Pipeline-Takt nar.heinandcr fur alle Ports aus- 
wShlt und mil dem Schlcifcnzahler-]U*gister (LOOP COUNTER) verkniipft. So 
ird fur jeden Port die aktuelle Adresse im lokalen Speicher generiert. 
ie Danei der internen Zyklen hangt von der Geschwindigkeit der verwendeten 
*.M-BauMcine und von den verfugba«:n Taktsignalen ab, ist also fur eine Archi- 
ktur fesi. Dagegcn wird die Zahl und Abfolge dieser Zyklen in einem Pipeline- Takt 
m den verwendeten Vektor- Ports bcstimml (vgl. Abschnitl 5.2.3). Deshalb mufi die 
CU durcli ein Steuerwort vom Wirt mil der Anzalil der verwendeten Eingabc- und 
usgabe-Ports parainetrisiert werden. 

ie richtige Zahl der Pipeline-Takte in den Phasen FILL und J OX EC wird folgcn- 
;rmafien vom Steuerwcrk der PCU generiert: Beim Start der A * is fu lining wird die 
ttuellc Scldeifenlange durdi ein Steuerwort vom Wirt in einem (in Abbildung 6\4 
clit gczeigten) PCU-Register gespekhert. AuBerdem wire! der LOOP COUNTER 
it der ncgicrlcn Liingc des langsten Eingabe-Schicberegisters inii.iali.siert und. rnit 
mi Beginn der FID^-Phase in jedem Pipeline- Takt ink rementiert. Hat der Zahler 
>n Wert Null eneieht, sind alle Eingabc-Schieberegister geJullt. und <lie EXEC- 
hase beginnt. Dann sign alisiert das Steuersignal VALID gultigr Werte in der ersten 
ipcline-Stufe (vgl. Abschuitt 5.2.3). Bei FOR-Schleifen wird der LOOP COUNTER 
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Abbildung 6.4: Interner Aulbau der Pipeline-Steuerungseinheit 



solange wciter inkrcmentiert, his er die aktuelle Schleifenlange erreicht. Dann wird 

wlSoS P'PeHne wird aber solange weitergetaktet, bis auZL 

dor FVfA Ph T d6r P ' pel,ne zuriick g«et Zt wird. So wird das Ende 

wid VaSI m^TT^ Pipdine ,ccr e elaufen ^ Bei WHILE-Schleifen 
wird VALID.OUT und das Ende der EXEC-Phase jedoch durch das in der Pi™>lin» 
erzeugte Abbruch-Sigual gesteuert. Pipeline 

Die Ubertragung der Felder vom und zu.n Wirt in den Phaser, LOAD und STOHF 
verwendet ebenfalls die Speicher-Ansteuerung mit de m LOOP COUNTER Iri J 
ne,„ B^srcgiste, Die Steuernng ist ahnlich wic bei EXEC, jedoch ™ £ In' 
krement.cn.ng des LOOP COUNTER durch die Datcn-Ubert ag,™ vom Win 
ansgelost. I m Gegenaatz dazu ist bei der Ubertragung .kalarer D^nZnekalu 
Zn W ? Cr 7 e i n °. lWendig: DiC Z " ,eSenden oder - schreibenden Register Zl n 
SerleXtrt: * *° * »P-US£ 



Jenerierung der FPGA-Konfigurationen 



in ^TZl nn '? T Pi P cli ^Schalt„ng zu einer vo.lslandi- 

PiJeKn SciS g Urat,0n J™ 1 * ,n,ert -erden: Dazu werden die Operator jeder 

^enclete hPCA-Fam.h e instanz.ert. Dann wird die resultierende Net^liste der SchJ 
tung auf Re glS i er .Transfer-Ebe„e mit der manuel. erzeugten l^Xt^ 
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He.uerungseinheit kombiniert (Modul- Integration)} Da audi die Zahl der zur Im- 
demcntieruiig der Bibliotheks-Module ncitiger. Logik-Blocke bekaiint ist, konnen 
vir die Gesamtzalil der fur die ganze Netzliste notigen Blocke bestimmen und ent- 
•dieiden ob das vorhandcne FPGA fur diese Pipeline ausreicht. 1st dies mcht der 
-all kann die Schleife nidit in Hardware rcalisierl werden. 2 SchheBhch ereeugen 
Standard- Werkzeuge einen Konfigurations-Bitstrom, der in das auf dem Wirt lau- 
rci.de Progran.m eingebunden und zur automalischen Konfigurierung des FPGA 
srerwendet wird (Logik-Syntltese). 

Die Durchfuhrong der Logik-Syntlicse (einschlie.Blid. Plazierung und Verdrahtung) 
kann fiir ein FPGA auch atif eincm sdmellen Recliner mehrere Stunden dauern. 
Dagegen dauert die Vektorisierung und Pipeline-Synthese nicht langer als die ande- 
ren Ubersetzer-Pl.asen (maximal wenige Sekundcn): Es ist also sinnvoll, die Logik- 
Svntbese imr in lohuenden Fallen durclmifuhrcn. Deshalb wird bereitsbei der Kom- 
bination der Nelzlisten gepriift, ob die Hardware fiir eine Pipeline ausreicht^ Aufier- 
dem schatzt die erste Stufe der Partitionierung (Abschnitt 6.4) nach der Pipeune- 
Syntbese ab, ob sich der Ehisatz eines Koprozessors voraussicbtlich lohnt. Nur ra 
diesem Fall wird die Logik-Synthese durdigefuhrl. Leider kann es jedoch auch vor- 
kommen daB eine Sd.fJti.ug, deren Logik-Blocke plaziert werden konnten, mcht ver- 
drahtet werden kann. lu diesem Fall muB die lange Synthese-Zeit in Kauf genoromen 
werden, da keine zufriedenstellenden Verfaliren zur Vorhersage der Verdrahtungser- 
gebnisse zur Verfiigung stehen. 



6.3.2 Software-Integration 

Wir haben gezeigt, wie die Pipeline-Sclialtungen durch cine PCU gesteuert werden. 
Nun muB aber das auf dem Wirt laufende Programm wiederum die Funktionen 
der PCU steuern. Dicsc Software-Integration geschieht durch die Instrumentierung 
des Zwisdicncodcs mil manuell ci.twickelten Bibliotheksfunktioncn. Sie initialisieren 
die RE, koufiguricrcn das FPGA, vcr;uilasscn die Ubertragung von Daten und ru- 
fen den Pipelinc-Koprozcssor auf, indem sie Stcr.erworle zur Auswal.l der nchtigen 
Fuiiktion an die RE sendei. und die PCU-Register setzen. Dabei wird die Software- 
Iniplemcntierung nicht durch cinen Koprozcssor-Aufruf erselzl, sondern um lhn 
erganzt. Die Auswabl zwischen der Software- und der Hardware-Implementierung er- 
folgt dann zur Lanfzeit nach den Kriterien, die die zweite Stufe des Partitionierungs- 
Verfalireus (Abschnitt 6.4) festlegl. 

Da die RE nidit auf den Hanptspeicher zugreifen kann, inussen alle verwendeten 
Variablcn iu der RE gespeichcrt werden. Fiir die skalaren Variablen wurden dafyr 

'Es ware auch moglich, mehrere kleinc Pipelines mil einer PCU zu einer Konfi K uration zu kom- 
bit.ic.en unci zur Laufceit jewcils eine Pipeline miszuwfihlcn. Dann konnte haufig ohne Umkonfigu,. 
rierung zwischen den Pipelines gewechsell werden. Auf diese Erwcilerung gehen w.r .n Abschmtt 

' =DurcIi Auftcilen des Schleifen-Rumpfes in mehrere Einzel-Schleifen konnten dennoch Pipelines 
fur die Sct.lcife erze.igt werden. Diese F.rweiterung wird in Abschnitt 9.2 betracl.let. 
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bereits FPGA-Register in der Pipeline-Schaltung angelegt. Jedoch miissen den Fel- 
dern vor der Instrumentierung Teilbereiche des lokalen Speichers zugeordnet werden 
Da bei e.ner Umkonfigurierung der RE nach unserem SP-Rechner-Modell auch der 
lokale Speicher gcloscht wird, wird fur jede Pipeline eine eigene Allokationstabelle 
angelegt. Sic legt fur alle in der Pipeline verwendeten Felder die Basisadresse und 
die. Lange des Feldes fest. Wegen der gleichen Wortlange auf Wirt und RE sind die 
Langen und auch die relativen Verschiebungen (Offsets) zur Berechnung der Ba 
s.sadrcssen von Teilfeldern gleich wie im Hauptspeicher. Deshalb kann das ganze 
Feld auch wortweise zwischen Hauptspeicher und Iokalem Speicher kopiert werden 
Reiclit der lokale Speicher allerdings nicht fur alle Felder aus, kann die Pipeline nicht 
unplementiert werden. 3 

Die Instrumentierung fur einen Koprozessor-Aufruf beginnt mit einer Funktion die 
die RE liutialisiert und das FPGA konfiguriert. Da dies sehr lange dauert sollte 
d.e Funkt.on vor einer Umkonfigurierung fiberpriifen, ob das FPGA bereits richtig 
konfiguriert ist. 6 

Danach miissen fur alle Variablen, die im Software-Anteil definiert und vom Ko- 
prozessor ben utzt werden, Funktionen zum Kopieren der Variablen zur RE ein- 
gefugt werden^Wird der Koprozessor nur einmal aufgerufen, sind dies alle Eingaben 
(Menge INPUT aus Abschnitt 5.2.2) sowie die Felder aus der Menge OUTPUT 
Die letztercn mfissen kopiert werden, da die in OUTPUT vorkommenden Folder — 
.m Gegensatz zu den skalaren Variablen — nur partiell definiert werden Derm es 
werden n.cht an alle Feldelemente notwendigerweise neue Werte zugewiesen Fiir die 
n.cht definierten Elemente gelten folglich die im Software-Anteil definierten Werte 
D.ese miissen im lokalen Speicher der RE verwendet werden, urn keine undefinier- 
tcn Werte zu erhalten. Denn diese wflrden bei der Ruckiibertragung eines Feldes 
nach dem Pipcline-Aufruf die gultigen Werte im Hauptspeicher uberschreiben Da 
erne genaue Analyse der in einer Schleife definierten Feldelemente jedoch meist nicht 
moglich .st und eine selektive Ubertragung einzelner Feldelemente die Datenuber- 
tragung komphzierter macl.en wiirde, mufi das ganze Feld als benutzt betrachtet 
und zum lokalen Speicher kopiert werden. 

Nach diesen Kopier-Funktionen wird der Zwischencode mit dem Aufruf des Kopro- 
zessors .nstn.menticrt. Diese Funktion stoppt das Programm auf dem Wirt, bis die 
I .pcluie-Ansrohrung beendet ist. Danach werden die Funktionen zum Rflckkopieren 
der Ergcbn.sse zum Hauptspeicher eingefugt. Dies bctrifft alle vom Koprozessor defi- 
n.crtcn und ,m Software-Anteil benutzten Variablen. Wird der Koprozessor nur ein- > 
mal aufgerufen, s.nd dies die nacli dem Aufruf lebendigen Variablen aus OUTPUT 
W it fuhren also due Lebendigkeits-Analyse dmcb, damit die im Software-Anteil nicht 
mehr benoligten Variablen nicht zuruckkopiert werden. 

Die notwendigen Kopier-Funktionen sind jedoch schwerer zu bestimmen, wenn ein 



mren^tt%t h L e K ."); r0UC,e r, bea [ beiten k6nnen ' ™ en T ^sformationen nStig, die Teilfelder 
beSet " bearbeiten. Eine solche Erwciterung wird ebenfalls in Abschnitt 9.2 
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prozessor mchnnals aufgcrufen wird. Denn Variablen, die nur im Koprozessor 
hrfach bearbcitet werden, sollten nicht zum Hauptspeicher und anschlieBend un- 
andert wieder zur RE kopiert werden. In diesem Fall hangen die benotigten 
pier-Funktionen von der Hardware/Software-Partitionierung ab. Die erforderli- 
. PJaziening clcr Funktionen wird dcshalb in Abschnitt 6.4 erlautert. 
ch der lustrum cntierung wird dcr Zwischencode schliefilich in ein Maschinenpro- 
mm ubersetzl . 2u dem Programm warden die FPGA-Bitstrome der erzeugten 
iifigurationtii gcbnnden, so daB zur Laufzeit ein Bitstrom ausgewahlt, das FPGA 
lfiguriert und die riclitige Pipeline verwendet werden kann. 

4 Hardware /Software- Partitionierung 

Kapitel 5 und in den vorangehenden Abschnitten dieses Kapitels wurden die 
selinc-Schaltun&cn, die Pipeline-Steuerimgseinheit und das zugrundeliegende Ma- 
linenmodcll fur einen kombiniert.cn Ubersetzer vorgestellt. Diese stellen die Rand- 
dingungen dar, unter dencn fur jeden Hardware-Kandidaten zwischen einer 
ftware-implenientierung und eincr Hardwarc-Implementiennig ausgewahlt werden 
iB. 

t\ dither Bardware/Software-Panitionierung ist es, ein Programm so in Hardware- 
d Software- Antcile aufzutcilen, daB seine Gesamtlanfzeit minimiert wird. Die Ver- 
lren des Hardware/Softwarc-Codesign legen dazu siatisch, also zur Obersetzungs- 
it, Hardware- und Software- K o in pon en ten fest (vgl. Abschnitt 4.2). Dann kann 
rcli cine DI3F/USE- Analyse der Yariablen genau bestimnrt werden, welcbe Daten 
am zuiu Koprozessor und zuriick kopiert werden miissen (siebe An hang B). Au- 
rdem wird nur eine Schaltung erzcugt, da entweder (nicht konfigurierbare) ASICs 
rgeschen sind oder aus anderen Grunden kcinc Umkonfigurierung zur Laufzeit 
5p;lich ist. Eine solcbc statisebe Partitionicrung ist aber nur dann sinnvoll, wenn 
r die Anwendung aussagekraftige und gleichartige Profiling-Daten vorliegen. Dies 
. bei eingebctteten Systemeii hfiung der Fall. Fiir eine statische Partitionierung 
riclit bri dicscn Systcinen audi, daB oft nur ein kleincr Speicher fur den Haupt- 
ozessor vorgesehen ist. In diesem Fall wiirde die doppelte Implementierung vieler 
mktionen in Hardware und Software zusatzliche Kosten verursacben. 
agegen ist die Bercitlialtung sowohl eincr Software- als auch einer Hardware- 
lpkinentierung in cinem SP-Rechner problemlos moglich. Dies ist gerade bei unse- 
n Pipelinc-Sclialtungcn sinnvoll. da die llardware-Bcschleunigung datenabhdngig 
t: Sie wird von dcr aktuellcn Schleifenlange bestimmt. Beispielsweise hangt die 
eschlcunigung fiir die Bildverarbeitung aus Kapitel 2 stark von der GroBe des Ein- 
tbcbildes ab; nicht fiir alle Bildgrofien lohnt sich die Verwendung einer Hardware- 
ipeline. Die aktuclle EingabcgroBe laBt sich aber prinzipiell nicht durch Profiling 
mitteln. Wir entwickeln dcshalb ein neuartiges zwcistufiges Parti t ion ierungsverfah- 
m, das in dcr ersten Si life zur Ubersctzmigszcit an hand grober Schatzungeu fur die 
■rftwarc- und Hard ware- Laufzeit bestimmt, fiir wclche Schlcifen sich die Synth ese 



OC1D: <XP 225A»fVA ( „ 



86 



««m e. «OMB m ^T ESTRUKTVRPR0GRAMMiBRm<: 

eines Pipeline- Koprozessors prinziDielJ lohnt n u- 

Plemem^rung a„ s . Da sich mit der AuswahT^ 2 fr eine Im - 

notwend,gen Kopier-F„„ ktionen Sndern> *? ? ^ k ° rrekte Ausfuhrung 

werden. U,n die Laufzeit-Kostcn fiir diese dvZ,iX A d,e9e "fP^d angepaBt 

aus mehreren Phasen best chen, die ewe^ ^17 ?" ^ Pr0 S ra «™ ^ 
sd.Jeun.gt werdcn konncn and ,wi^£n« S » "f^Kpeli-e. be- 
W„- envctem die La„fzeit-A U swahl deThalb Z eL T ^'^^g lohBt. 

jsia^ die d, Phasen , zwischcn ^ sxwssss 

>n einer Ko n fi e „ ratjon S in . ^1 *?' da nur J"** eine Pipeli* 

des Hardware-Bedarfs reicht aus ^ AbSChn,W 6 31 erwa ><«te UberprQfJg 

6.4.1 Schatzung der Ausfiihrungszeiten 

m diesenl A ^c!„„tt zunachst diese r SSt«™ r ?* Wlt dis ^en deshalb 
A U fr„f s , der Ko„fi gnricrnngs Z c Ler Ko^rT t T, ' w(i) ** U ™ X«l™££ 

Die Konfimirierunasieit T * • ' * 

MS nur k o in p Ic «! e C^ ^^fj^-J*-! da die g an ze 
^ m abschat Z enz„k6n„en miissen „! ' U ™ /ber die KommunikationszeU * 

gehcn davon aus, daB „, e in ^ZtoZ'ZZ^™ 6 ' ™ 
Anted zusanunen referenziert werden DicsZ Ve ™ C ° dc * en Va ™We» in, Software- 
«- f nnz er Datcilsatz D( J"; D*. bedeutet, dafi f„ r e i ne Schieife L hnmer 

Ubertragung aJicr be./otigten Sab cn^r rS *r Gesamtzeit 

Ergcb„ lsse « um Hauptspeicher.s Zur RE und zur ROckubertragung aller 

*cngl. download time " 
" WlT gehen audi davon aus rf-iR t> 

«. - vo „ den aktueIien EilI6abedaten unabh5ngjg ^ D;es 
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die Software-Ausfuhmngszeit T w (0 bestimmen wir die Dauer T F emer Schlei- 
teration auf dem Hanptprozessor ate Summe der Lanfzeiten der emzelnen Befehle 
ZwWcl.ci.code. Bei bedingten Amwasungea werden aufierdem Annahmen uber die 
jfiekeit der Prograimimveigc K*™** 1 ,1,ld die Zwei & e entsprechend gewichtet. Es 
ivdoch scl.wierig, bei dieser Analyse Ubersetzer-Optimierungen und Laufeeitef- 
le (elwa Cache-Hits ui.d -Misses) zu beriicksichtigen. Die folgei.de Sd.atzimg der 
twarc-Laufzeit ffir die i-te Schleifd.ansfiihnmg ist deshalb recht grob: 

T S w(i) = H}) x Tr ^ 

i die spateren Bercchnungcn zu vereinfachen, definieren wir schlieClich die Be- 
demigw* eintr eintdnenScUeif alteration Agw/aw (ohne BerucksichUgung der 
.mmunikations- und Konfiguricruiigsaeiten) folgendermaBen: 

Aswibw = T P -T C (6-3) 

-wmw ist jedocl! recht ungeuau, ds sich die Instrumentierung ui.d die Datenuber- 
tcungen auch auf die Anwcndbarkeit der Ubersetzer-Optimierungen und auf die 
.ufzeiteffekte auswirken. Leider ist cs aber kaum moglich, diese Ausw.rkungen 
rlierzusagen. 

,11s fur eine Schleife L A ? w}H w < 0 gilt, die Software- Ausfiihrung einer Iteration 
«> scbneller als ein Pipelinr-Takt ist, ware die Hardware audi ohnc jcglichc Zusatz- 
«ten langsamcr als die Software. Es lohnt sich dann kcinesfalls, emeu Koprozessor 
. synthetisieren. 

.4.2 Bestimmung der lohnenden Pipelines 

ie crete Stufe der Parti ti on ierimp besUinmt, fur wclche Hardwarc-Kandidaten sich 
c Generierung einer FPGA-Konfi-uration trotz der Zusatzkosten voraussichthch 
lint Es muB also gepruft werrV-n, ob eine Phase des Programmlaufs, in der nicht 
mkoiiOgnrierl wird, durch eine Pipeline besddeunigt werden kann. Da der genaue 
blauf des Programms jedoch nicht bekannt ist, wissen wir im voraus audi nicht, 
ami rekonfiguriert und vie oft komnnmiziert werden muB. Die Co-saintlaufzeiten 
lit und ohne Pipeline mussen also geschatzt werden. 

icshalb wird zimadist analysiert, wie oft ein Kandiclat L ohne •/.wischcnzeitli- 
ue Komrounikation aufgerufen wird. Dazu suchen wir im Programm die auBcrste 
chlcife K, die L cinsdiliefit und in wclcher der Datensatz D(L) (aiilierhalb von L) 
icht referenziert, d. h. definiert oder bcmitzt, wird. Derm in dieser Sd.leife fallt 
Wom« nur einmal an. Im ungunstigstcn Fall ist K = L. c In deni Be.spiolprogramm 

;t formal korrekt. da die GroCc ricr FsJdcr des Eingabcprograiimies konsUtit isL. Jedoch wjirr. 
ci nur teilweise gefiillt™ Feldcrn die Obcrtragung des gan«cn Feldcs cigcnLlidi nicht iiotwcmhg, 
rodurch auch T K ,„ n „, datenabhangig wiirde. . 
G Auch M-emi D(L) in einer auBe.rcn Schleife nur manchmal (in einer bcdm^ii AnwciKung) 
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aus Kapitel 5 (Abbildung 5.1) ist K die auflere Schleife Ll, und in den Bildverarbei- 
tungsprogrammen (Abschnitt 2.1) entspricht K den Schleifen uber alle Bildzeilen. 
Da nicht genau bekannt ist, wie oft L in der Schleife K ausgefuhrt wird und wie- 
viele Iterationen die einzelnen Ausfuhrungen der Schleife L haben, miissen die 
Ausfnhmngszahl k (von L in K) und die durchschnittliche Schleifen lange / durch 
eine statische Analyse der Ausfiihmngshaufigkeit von Schleifen und bedingten An- 
weisungcn geschatzt werden. (Diese Analysen konnen audi Annotationen des Pro- 
grainmierers verwenden, urn genauere Schalzungen zu erhalten.) Dann ergeben sich 
folgende geschatzte Ausfuhrungszeiten fur K: 

Tfc t sw = kxlxTp ( 6 4 ^ 

Tkmw = k*VxT c + c) + T Kamm (6.5) 

^Komra fallt also fur alle Ausfuhrungen nur einma! an. 

Bei dieser Analyse wurde aber T DL noch nicht berucksichtigt. Im nachsten Schritt 
wjrd deshalb die auBerste Schleife P, die K einschliefit und in der kein anderer Kan- 
didat hegt, gesucht. (Im ungunstigsten Fall ist P = K.) Innerhalb dieses Programm- 
Abschmttes P mufi die RE nicht urnkonfiguriert werden, T DL fallt also nur einmal 
an. In unscrcn Bejspielen entspriclit P dem ganzen Programm, da wir immer nnr 
erne vektorisierbarc Schleife betrachten. Abbildung 6.5 verdentlicht das Verhaltnis 
der Schleifen P, K und L fur verschiedene Kandidaten in einem Programm 




Abbildung 6.5: Beispiel fur die Schleifen P und K 

Wir analysieren wiedcrum statisch, wie oft K in P durchschnittlich ausgefuhrt wird 
Das Ergebms sei p 7 wodurch sich die folgenden Zeitschatzungen fur K ergeben: 

Tp,sw ~ p x kxl xT P ( 6 6 ) 

T P , HW = Px(kx(lxT c + c) + T Komm ) + T DL ( 6 .7) 
= PXkxlxT c +pxkxc + pxT KoTnm +T DL (6.8) 



ifnZ'lt? 7l Td i^ Tt d i eSe Sch,dfe nicht mehr ZU K * In diesem FaI1 erhaIten wir eine zu pes- 
L tatsSchIich 6fter a,s ^chatzt ausgefuhrt werden kann, ohne 7aB 
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Nun konnen wir bestimineiu in wclcheu Fallen die Soft ware- A usffi lining von P Hinger 
als die Hardwarc-Ausfuhning (einschliclibch Rekonfigurierung mid Kommunikatio- 
iicij) danert. Die Symhcse einer FPGA-Konfiguration lohnt sich also, wenn folgcndc 
Ungleichung gilt: 

'I)\$w > Fpjjw (6*9) 
^ ;> x /; x lx r r r > pxkxlx 7<. H p x k x c + p x T Ki „ ttllt +T DL (6.10) 
<=; p x k x I x A.vvr/WH' - p * k x c > p x T h \ nnm + Tpz, (6.11) 

<^ / X A 5 H'///IV - c > — £ — + 

Die Darstclluug in l-ngleichung (6.12) verdeutlicht, daB sich cin Hardware-Ko- 
prozessor genau dann lohnt, wenn die durehschnittliche Bcschleunigung / x 
Ac H -;;/H* ~ <* f" 1 ' SrhleifeiiHiisfiihrimg plotter als die amor tinier ten Konfi- 

gu ric-rii ngs- tuul Koiiimunikation.skost.cn fur alle Ausfuhrungcn in P ist. 
Lcidcr l>tteinf JuBi dieM* A us- wall 1 der lohneuden Pipelines aber ihreeigenen Voraussct- 
znngen: Denn durch weniger ausgewahltc K on figuration en kann sich fur die verblie- 
bencn Konfigunii ionen der Abschnitt P, in dein nicht umkonfiguricrt werden muB, 
vergroflern. Also wird auch p groflcr, die amort isiert en Konfignrierungskosten wcr- 
den kleincr. nnd der Vortc.il finer Hardware-linplcment ierung slcigt. Zwei Pipelines, 
die Vngleiclmng (<U2) nichl erf ii Hen. konnten sich also jewcils einz-eln iohnen. Da es 
schwierig ist t diese rygenseitigen Abhjingigkciien global zu analysieren, konnen wir 
folgcnde Hcurislik vr-wenden: Die Kandidaten werden schrittweisc entfernt, dainit 
sich nichr alle gcj'eiiseil.ig ausschlieBen. Dabei wird /uerst der ungunsl igste Kandidat 
(mit den) grofii.iii Wen fur T rit w r l'h\y\v) eui feint . void fur die anderen Kandidaten 
werden die Schleifen P sowie ihre Ausfiihrmigsxahlen p ucu bestiinmt- Dies wird so 
hinge fortgese1*/l , bis nur noch lohnendc Kandidaten ubrigblciben. 
Da die gauze Analyst- auf recht ungenauen Schalxungcn heruht, sollte dem Pro- 
gramniierer audi akernativ die Moelichkcit pegeben werden, dnrch Anriotatioucn 
auszuwalilcik fiir welchc Schleifen FPG A- Konliguralioncn erzcugt werden sollen. 
Audi wenn diesc Fnt scheidung dnrch den Progrannnierer gctroflen wird, kann die 
in i na'chsten Ahschnitl angegebene He.nristik zur autoniatischcn Lanfzoil-Auswahl 
eingesetzt werden. 

■» 

6.4.3 Laufzcit-Auswahl 

Nach der im vorhergehenden Abschnitt vorgcnomnienen Analyse konnen wir davoti 
ausgchen, daB sich cine Rckonfigurieruiig bei jeder Ausfuhrung einer Schleife P, fiir 
die cine FPGA-Konfiguration erzeugl wurde, lohnt. Nach Bedingung ((>. 12) rrgibl. 
sich eine durchschnittliche Besclilcunigung, wenn fiir den Kandidaten L immcr di«- 
Pipeline aufgerufen wird. Wir konnten also statisch partitionieren, indem wir vor dn 
Schleife P die Konngurierungs-Funktion einftigen. vor unci nach der Schlcih* K die 
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' elmgef 6 D(L) flbertragen Sta " ScWeife L immer *« Pipeline-Aufruf 

Hardware erfolgt. AuBefden, soil das FPGA nur dLl • I J 0der m 

tatsachlich benutzt wird; I^^Z^^S^^T^'^^ 
nientng, die Laufzeit-Ausvohl, entwickelt Stufe r Part,t, °- 

Deshalb wird einma] fur jeden Datensatz (also fur jede Ausfiil,r„T.a H» « ki -«■ 
gepruft, ob fur alle SchJeifenausfiihrungen in K die SoftwS A k ^ K) 
M.plementierung gOnstiger ist. DafGr werden fur den aUu^Ln > T 

Wertc Oder genauere Schatzungen der durchschnitSS 1mA f-^ ^ 
Ausfuhrungszahl k benotigt. E^akte Werte k^ne^^ "J ^ 



f«* >T ««»' (6.13) 
« *xlxT,.>tx(/ X T. + c) + T „__ (6J4) 

» ,xA ™«--'>%= (6.16) 

w,rd. werden in K keine weiteren Kommunikalionen, die d! J £!S£fflE£S 
zeit verlaiigern konnten, notwendig. Oesamtausfuhrungs- 

Pur die Au^ertung zur Laufzeit wird UngJeichung (6.15) verwendet: Da A s ™ 
c und 7 Komm zur Ubersetzungszeit bekannte Konstant^ ■• 5M '/ tf " r ' 

verandcrlichen Werte fur Jt und / eingesetzt werden ,DUSSen Dur dle 

^S^t^noZ^ t nkht ,<>hnende K °P— sor-Aufrufe verhindert. 
d.es auch fur unnot.ge Konfigunerungen zu erreichen, wird eine weitere Optimie- 
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rung durchgeftihrt: Da erst dann umkonfiguriert werden sollte, wenn die Hardware- 
Irnplemeritierung tatsachlich gewablt wird. koppeln wir die Konfigurienmg mit der 
AuswahL Wir instrument ieren den Zwischencode also so, dafi an den Eingangen 
Jer Regional K die Ungleichung (6.15) iiberpruft wird. Gilt sie, wird — falls notig 
— umkonfiguriert, koniijuiniziert und die Pipeline ausgefuhrt. Andernfalls wird die 
Software gewahlt. Der aktuelle Konflgurationszustand der RE wird gespeichert und 
vor eiiier Rekonfigurierung iiberpruft, so dafi in jeder Ausfiihrung der Region P ma- 
ximal emmal umkonfiguriert wird. Der zusatzliche Aufwand diescr Priifung istsehr 
klein im Vergleicb zu den Kosten einer moglichcrweise unnotigen Urnkonfigurierung. 
Abbildung 6.6 zeigt unser BeispieJprogramm mit den eingefugten Instruktionen zur 
Laufzeit-Auswahl. Dabei sind DELTA _SW_HW, C und T_K0MM Konstanten, die zur Uber- 
setzungszcit berechnet werden. Zur Laufzeit mussen also nur N und MAX ITER einge- 
setzt werden, falls dies Variable)! sind. Die Funktion RT-DOWNLOAD iiberpruft die ak- 
tuelle Konfiguration und andert sie gegcbenenfaJls, und die Funktion RTJ>IPELINE 
ruft die aktuelle Pipeline auf. (Sie hat tatsachlich mehr als die hier angegebenen 
Parameter.) Die restliclien Bibliotheksfunktionen fuhren die Datenubertragungen 
aus. 



IF (MAXITER *"((N - 2) * DELTA_SW_HV - C) > TJCOMM) THEN 
RT_DOWNL0AD(l) ; (* Lade Konfiguration 1 *) 

RT_PUT_VEC(X,0,N); (* Kopiere X *) 
RT_FUT_SCAL(RAND, 1) ; (* Kopiere RAND *) 
FOR ITER := .1 TO MAX ITER DO (* LI *) 

RT_PIPELTHE(N-2, . . .) ; (* Rufe aktuelle Pipeline auf *) 

S := 1 - Sj 
END; 

RT_GET_VEC(X,0,N); (* Kopiere X zurueci *) 
RT„GET_SCAL(RAND , 1) ; (* Kopiere RAND zumeck *) 
ELSE 

FOR ITEIt 1 TO MAXITER DO (* LI *) 
... (* Software *) 
S := 1 - S; 
END; 
END 



Abbiklung OS: Instrumentiertes Bcispi el program ni 



6.5 Bewertimg 

In diesem Kapilel wurde.ein neuer Ansatz zur kombinierten Strnkturprogramrnie- 
rung vorgesteilt. Er ist weitgehend maschmciumnbhangig und ernioglicht so den Ein- 
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satz <ies Pipeline-Synthese- Verfahrens aus Kapitel 5 auf verschiedeaen SP-Rechnern. 
Die aus gccigneten Schleifen des Eingabeprogramms generierten Pipeline-Kopro- 
zessoren werden von einer nenartigen generischen Schaltungskornponente, der 
Pipcline-Steuerungseinheit, angesteuert. So konnen die Koprozessoren verschiede- 
ner Programme einheitlich behandelt werden. Die Steuerungseinheit vereinfacht au- 
fierdem die Portierung des Verfahrens, da sie die maschinenspezifischen Details des 
SP-Rechners kapselt. 

Die Fnnktioncn der Steuerungseinheit werden wiederum von Bibliotheksfunktionen, 
mit dcnen das auf dcm Wirt laufende Programm instrumentiert wird, gesteuert. Da 
audi die FPG A-Bitstrome zum erzeugten ausfuhrbaren Maschinenprogramm gebun- 
den werden, kann cs die RE zur Laufzeit automatisch konfigurieren und steuern. 
In diesem System erzeugt ein kombinierter Ubersetzer also erstmals automatisch 
Pipeline-Koprozessorcn fiir geeignete Programmteile und integriert ihre Ansteuerung 
in den Software-Anteil der Anwendung. 

Die Auswah! der lohnenden Programmteile wird durch ein neuartiges zweistufiges 
Hardware/Software-Partitionierungsverfahren vorgenornmen. Die erste Stufe ent- 
scheidet statisch, welche Schleifen sich prinzipiell durch Hardware-Pipelines be- 
schleunigen lassen, und die zweite Stufe wahlt dynamisch zur Laufzeit — abhangig 
von den aktuellen Eingabedaten — die voraussichtlich schnellste Implementierung 
in Hardware oder Software aus und rekonfiguriert die Hardware gegebenenfalls. 
Jm Gegensatz zu den aus der Literatur bekannten Verfaliren wahlt diese Partitionie- 
mng zur Laufzeit datenabhangig zwischen Software und Hardware aus. Aufierdem 
wird die Rekonfigurierungszcit der RE berucksichtigt. Eine Analyse bestimmt sogar 
automatisch die Program mphasen, zwischen denen sich eine Rekonfigurienmg zur 
Laufzeit lohnt. 



Kapitel 7 

Der Modula Pipeline Compiler 



Dieses Kapitel prnscntiert cine prototypischc lniplementicrung der in den vorherge- 
heinieii Kapitcbi vorges tell ten Vcrfaliren, den MouULA PIPELINE COMPILER. Er 
zei»t, dab* die Integration der Vektorisierung nnd Pipeline-Synthese in einen Uber- 
■seiner pi nkl ikabel ist, erbebt abcr nicht den Anspruch, vollstandig odcr abgcrundet 
zu scin. Dcslialb wurden in dieser Version des Uberselzers Funkiioneu weggelassen, 
die mbrnsachlicb sind oder in anderen Arbr.it.nn bcreits demonstriert nnd dokumen- 
licrt u-nrdcii. AuBcrdcm konntc a us Zeiigrimdcii die automatische Partitionierung 
iiielit mchr iinplcincntiert werden. Trotzdcm konnen die Erfahrungen mit diesem 
klcinen Proiolyp cine groBc Hilfc fur cine spatcrc Entwirkhmg cincs vollstandigcii 
Obersoizers fur grpBcre Architekturen sein. 

Zimiichst- uerden die vcrwondctc Hard ware- Pin ttform — einc Sun SPARCstation 
mil oilier EYCl-Karte - und dcr MODULA-2-Ubcrecl.zcr MOCKA, auf dem die 
Implcmeiiticrimg b;isiert. vorgesiellt. Danaeh gelien wir auf Details des Prototypcn 
cin, bericJilcn iibcr Erfabrungcn mid schlagcn Vcrbcssc.ru ngen fiir cine Ncuim pie- 
men! iermig vor. 



7.1 Die Hardware-Plattform 

Als ZielplaU form des MODULA PIPELINE COMPILER dicnt cine Sun .S7V1 IK'shdmn 
10/40 (AO MHz SuperSPAKC- Processor unter SunOS 4.1.:t) mit. der SUWS K;nlr 
Kiujivta 's Virtual Computer EVCl [TCS94, CTS95], die iut nadisi.rn Absrhr.il 1 
niilicr voi-gesiellt- wild. Dicse Kornbination wurde ausgewalilt, da der KVCl • I iT- 
crsie kommerzieli vei fiigbare, kleinc KPGA-Einsteckkarte war, die fiir nnsm- '/u^ k.- 
geeignel ist. Dureh die SB US- Sell 11 ills telle der Karte kummt als Win. mir Hm- Sim 
Workstation in Pragc. AuBcrdcm cxistiert auch cine Version des MOCK A I'm di... 
im rtkadeinischen IJereieh sehr vcrbrchcten Workstations. 
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7.1.1 Der Engineer's Virtual Computer EVCl 

M GA. Die rekonfigunerbare Lojnk dieses FPOAq - * ^4013-5 

Die Grofie der rcalisierbaren ^^S^JS^fX ^ "f 00 Gattern - 
stehtaufderKartedn 40-MHz oJnZ alS ?.. recht ^eschrankt. A!s Taktsignal 

ra^n, verwcndet 

doren Pins s ind mi t den SBUS-Signalen SS p t ^J^SSa^** 
Daten von der SPARCstation zum lokalen SwsirL If -T Anordnung konnen 
flbertragen wcrden Erne dir^H 7Ak f 5peicher und z «™<* nur durch das FPG A 
nicht mlglich AuOerdem ^^S^S^T^^ ^H—.* 
ein mitgeliefertcs Wlale^lS^S?^ 08 ? a " f des EVCl d ««* 

Kartekann n„r durch si^d^i^^SL"^ " nd * EVC1 - 

n^ht die Konununikation rech T^^'S^' 0 ^^^^- 13 ^ 
etwa 500 Nanosekunden. Und die F^Tkou^I & 7 S ^ W ° rtes dauer * 

wurf eines einfachen Pro^P^ s£ fdL"^ >" f ^ ^ deD Ent " 
Hardware-Makros. Sie •rn^^i^S^K U " d 
ein auf der SPARCstation lanfrnH- p emfache f nblndun S v °« Koprozessoren in 

7.2 Der MOCKA-Compiler 

sclbst cine klare SprSe reHt " klf n P f ^J^- Aufie ' de "> * MODULA-2 
schnitt s.1.1 7rte»ZTl ■ U ^ fangS ' die dennoch - ™ boeits in Ab- 

-ersprache fcJETso '„ 3^^^ r ^?f dnw 

'engl. memory-mapped I/O 

s MOCKA = MOdula Compiler KArlsruhe 
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dula Pipeline Compiler Funktionen verwirklicht werden, die mit einer anderen 
Programmiersprache, etva in ein em C-Ubersetzer, schwieriger oder gar nicht zu rea- 
Hsieren gewesen waren. 

Im folgenden wird eine grobe Ubersicht des Ubersetzungsvorgangs im MOCKA ge- 
geben. Darauf aufbaiieiid werden dann die Erganzungen im Mo DULA Pipeline 
COMPILER vorgeste'llt. Von mis wurde nicht die urspriinglicbe Version des MOCKA 
verwendet, sondcrn dcr PR.ISMA-Prototyp. Diese MOCKA-Erweiterung wurde ur- 
spriinglich zur automatischen Program m-Parallclisicrung entwickelt [Lin92, Wei92, 
AW93]. Der PRISMA en thai t leider kcinen funktionsfahigeii Optimierer, so dafi auch 
die in Kapitel 8 vorgestellten Messungen ohne Ubcrsctzer-Optimierungen durch- 
gefuhrt werden inufiten. 

7.2.1 Phasen der Ubersetzung 

Der MOCKA isl ein Zwei-Pafl-Ubersetzer, dessen Funktionalitat grob in die in Ab- 
bildung 7.1 gezeigten Phascn unterteilt werden kann: 

Zunachst wird das Eingabcprpgramm vom Scanner und vom Parser lexikalisch und 
syntaktisch analysiert und in die h oh ere Zwischensprache ASTA (Abstract State- 
ments) ubcrsetzt. Danach iibersetzt der Transformer die ahstrakte Syntax der An- 
weisungen in die niedrigere Zwischensprache MOBIL (Modula Backend Interface 
Language) [Sch88b]. Die semantische Analyse des Programms ist dabci auf den Par- 
ser und den Transformer verteilt. Schlicfilich erzeugt der Code- Generator aus den 
MOBIL-Instniktionen Objcktcode, der vom Binder mit dem Code importierter Bi- 
bliotheken kombiniert und zu eincm ausfuhrbaren Programm gebunden wird. 
MOBIL ist eine maschinennahe, aber von spcziellen Prozessoreigenschaften un- 
abhiingigc Zwischensprache. Das hcifit, dafi komplcxe Berechnungcn des MODULA- 
Programms auf der MOBIL-Ebene in elcmentare Bcfchle, die jeder Processor 
ausfuhren kann, aufgebrochen sind. Dies gilt jedoch nicht fur die Ad refiberechnungen 
in Feldzi* griffon, die in MOBIL durch noch relativ komplexe lndizierungsfunktionen 
reprasenticrt werden. 

Fiir die PRISM A- Version des Ubersetzcrs stcht auch ein C-Backend zur Verfugung, 
mit dem C-Funktionen besonders einfach mit cinem MODULA-Programm kombi- 
niert werden konncn. Da dies fiir die Laufzeitfunktionen des EVC1 notwendig ist, 
wurde dieses Backend in dicser Arbeit verwendet. 



7.3 Implementierung 

Die Gesaintstruktur eines kombinicrten Pipeline- Uhersetzers wurde bereits in Ab- 
schnitt 6.2 (Abbiidung 0.2) vorgestellt. Wir bctrachten deshalb liier vor allcm die 
Besonderheiten des Modula Pipeline CoMPiLER-Prototyps, insbrsonderc die In- 
tegration dcr Pipcline-Syn these in den MOCKA-Compiler und die automatische 
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Quellcode 



Scanner/Parser 



ASTA 



Transformer 



MOBIL 



Code-Generator 



Objektcode 



Bibliotheken . 









Binder 







ausfuhrbares Programm 



Abbildung 7,1: MOCKA-Ubersetzungsphasen 
Einbeziehung externer Entwurfswerkzeuge. 
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gen) rekonstrnieren und eine Instrumcnticrung des MOBIL-Codes sehr erleichtern. 
Aufierdem konnen die Jndexausdrucke dcr Fcldzugriflfe bei der Vektorisierung auf 
relativ hoher Ebene aualysiert werden, da sie bei der Ubersetzung nach MOBIL 
erhalten bJeibcn. Da schliefllich aus Aufwandsgriinden fur den Prototypen sowieso 
auf eine lmplementierung der qu el lsprach-n alien Analysen und TYansformationen 
(Algoriltinjen in den Abbildungen 5J9 und 5.20, Abschniti 5.5) verzichtet werden 
mufcte, wurde fur den Modula Pipeline Compiler ein auf der MOBIL-Ebene 
aufsetzender Entwurf gewahlt. 

Im folgenden beschreiben wir zunachst die Implementierung der Pipeline-Synthese 
und der Pipeline-Steucrungseinheit, bevor die Erzeugung einer FPGA-Konfiguration 
durcli exlerne Entwurfswerkzeuge und die Integration der Koprozessor-Aufrufe in die 
Software erlautert werden. 

7.3.1 Pipeline-Synthese 

Wie obcn erwahnt, wurde die automatische Kandidaten-Auswahl und -Normali- 
sierung im Prototyp nicht implementiert- Statt dessen mufi der Programmierer die 
Schleife, fur die eine Pipeline synthetisierl werden soli, im Programmtext annotieren. 
Damit sichert er zu, dafi die Schleife in der gewiinschten Normalforrn ist. 
Im Gegensatz zur Darstellung in Kapitel 5 generiert der Modula Pipeline Com- 
piler zuerst einen azykliscben Datenflufi- Graph en der annotierten Schleife. Danach 
wird das Einfiigen der Riickkopplungsxyklen mit der Vektorisierung kombiniert. 

A zykli scher Datenflufi- Graph 

Die Synthase des azykliscben DatenfluB-Graphen unterschcidet sich iin MODULA 
Pipeline Compiler von dem in Absclmitt 5.1.4 vorgestellten Verfahren. Es wer- 
den kcine separaten Graphen fur jeden Basisblock aufgebaut und spater durch 
eine Da-tenfinB-KontrollfluB-Transfornifition vcrsclimolzen. Vielinehr wird der ganze 
Schlcifcnrumpf, demur noch aus Zuweisungen und bedingten Anweisungen besteht, 
in einem Durchlauf analysiert. Dieses Vorgchcn entspricht der im "Traiismogrifier C 
Compiler" (vgl. Absclmitt 3.2.1) verwendeten Methode. Jedoch wird der DatenfluB- 
Graph nicht auf Gatter-, sondern auf Operatorebene aufgebaut. 
Beginnend mit der ersten Zuweisting des Schleifenrumpfes wird inkrcinentcll fur je- 
3cn Programmpunkt cine List-e der gultigcn Werte aller bisher defmierUiu Variablen 
-rstellt. Unterschiedliche Vektor-ZngrifTe werden dabei wie unabhangi^c Variablen 
bchandelt. Die Wcrte dcr Variablen siud arithmetische oder logische Verknupfun- 
5en der Eingabevariablen (oder -register). So entstchen DatcnfluB- Graphen, in de- 
:ien die Operatoren der MOBIL-Zwischensprache durch entsprechendc Hardware- 
Dperatoren crsctzt sind. An den "Verschinelzungspunkten" zweier Kon troll flu B- 
Pfade (nach bedingten Anweisungen) werden die korrcktcn Definitionen der hetrof- 
renen Variablen durch Multiplexer ausgewahlt. Nach der Analyse aller Anweisungen 
srgibt die Zusanimenfassung der Werte aller Ausgabevariablen den restiltierenden 
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7.3.3 Generierung der FPGA-Konfiguration 

Urn eine funktionsfahige FPGA-Konfiguration zu erhalten, mussen die i>rt» 
grammspeziflschen Pipeline-Schaltungen mit der PCU verkniipft und ic cim-n 
Konfigurations-Bitstrom transformiert werden. Dies geschieht automatisch duivh 
die Kombi nation extern er Entwurfswerkzeuge. Im Prototyp kann jedoch nur eim 
Pipeline pro Programm implementiert werden. 

Zunachst wird die von der Pipcline-Synthese erzeugte VHDL-Datei in das XNF 
Format ubersetzt, wobci die VHDI^Komponenten darch entsprcchende PPG A 
Makros fur die Xilinx 4000-Scrie ersetzt werden. Dies wird von dem MODULO 
System zur bibliotheksorientierten Technologieabbildung [KKT+95] vorgenommen. 
MODULO optimiert die Schaltung nicht, ist dafiir aber sehr schnell. Auflerdem 
muB keine vollstandige Operator- Bibliothek vorhanden sein. Denn die Ausnahmc- 
behandlung von MODULO ruft automatisch ein machtigeres Synthese-Werkzeug 
(z. B. Synopsys) auf, wcnn ein Operator fur eine bestimmte Wortbreite noch nicht 
vorhanden ist. 

Danach werden die XNF-Netzlisten der PCU und der programmspeziiischen Pipe- 
line durch die Xilinx-XACT- Werkzeuge zusammengeffigt, optimiert, plaziert und 
verdrahtet. Die resultierende Bitstrom-Datei wird schlicBlich von einem mit der 
EVCl-Karte gelieferten Hilfsprogramm in eine C-Hcader-Datei konvertiert, die in 
die Software integriert werden kann. 

7.3.4 Anpassung des Zwischencodes 

Wird der Parameter -hw vcrwendet, generiert der Modula Pipeline COMPILER 
eine FPGA-Konfiguration fur eine annoticrtc Schleife. Wenn dies fehlerfrei gelingt, 
ruft das erzeugte Masch in en programm immerden Koprozessor auf, da im vorliegen- 
den Prototyp keine automat ische Partitionierung implementiert wurde. Der Aufruf 
geschieht durch die Instrument! enmg des MOBIL-Codes mit Aufrufen von Laufzeit- 
Funktioncn, die zrnn atisfiihrbarcn Code gebunden werden: Die Funktion EVCJtUN 
steuert die Pipeline-Ausfiihrung und ersetzt im Programm die Instruktionen fur die 
Software- A usfuhrang der Schleife. EVC_RUN erhalt als Parameter die aktuelle Schlei- 
fcnlange und die Zahl der zum Fiillen der Eingabe-Schieberegister notigen Takte. 
Anfierdcm wird fur alle Vektor-Ports die Adrcsse des ersten Wortes im lokalen Spei- 
chcr (Basisadresse) sowie die Traversierungs-Richtung (fiir die Schrittweiten 1 und 
-1) angegeben. Dazu werden fiir die Fcldcr in INPUT und OUTPUT Speicherberei- 
che im lokalen Spcichcr allokiert. Dabei wird auch uberpruft, ob der lokale Speicher 
fiberhaupt grofi genug ist. Falls in der Schleife auf Teilfelder zugegriffen wird, mussen 
aufierdem Funktionen zur Berechnung der Position eines Teilfeldes innerhalb eines 
Feldes generiert werden. 

Znsatzlich werden Funktionen zur Daten-Ubertragung eingefiigt. Dazu wird ana- 
lysiert, in welchen umgebenden Schleifen des Kandidaten die Variablen aus IN- 
PUT und OUTPUT verwendet werden. Dann werden die Funktionen EVC-PUT und 
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EVC-GET in die jcweils auBerste Schleifc eingefngt, fur die dies der Fall ist. So fin- 
den zur Laufzeit so wenig Ubertraguugen wic moglich sla.lt. Die Kopicr-Funktionen 
fur die Felder erhalten die obcn berechneten Basisadressen im lokalcn Speicher als 
Parameter. 

SchlieBlich werden die Punktioncn EVCDOVNLOAD zur Konfigurierung nnd EVCRESET 
zuin Rucksetzcn des EVCl eingefngt. Da nur ein Koprozessor pro Programm zuge- 
lassen ist, kann dies dirckl am Program man fang beziehungsweise am Programmende 
erf ol gen. 



7.3.5 Integration 

Die in den vorbergehenden Abschnittcn erlauterten Module wurden in den MOCKA- 
Compiler integriert. Abbildung 7.3 zeigl alle Ubersetzungsphasen im MODULA Pi- 
peline Compiler, wobei ncue Prograinmteile des Ubersetzers sowie Hardware- 
imd Software-Komponenten des Laufzcitsy stems grau unterlegt dargcstellt sind. 
Der MOCK A selbsl wird folgendcrmaflen erweitert: Nach der Transformation m 
MOBIL-Code wird die Pipeline-Syntbcse durchgefuhrt. Sic erzeugt die VHDL-Datei 
pipe.vhdl. Danach wird der MOBIL-Code instrumentiert, bevor er vom Code- 
Generator weiterverarbcitet wird. 

Aufierdem ruft der Ubersctzer cinen Shell-Skript auf ; der die externen Entwurfs- 
wcrkzeuge stcuert. Dicse synlhetisicren aus pipe.vhdl znsammeii mit der PCU- 
Netzlisle pcu.xnf die FPGA-Konfiguration und speichern sie als C-Beader-Datei 
pipe.h. Danach iibcrsctzt ein C-Ubersetzer die Laufzeit-Fimktion EVC_D0WNLOAD 
(in rtjdounl.c) znsammen init pipe.h. Der erzeugte Objektcode in rt.downl.o 
konhguricrl die EVCl-Karte mit der program mspezifischen Pipeline, rt.downl.o 
wird dann — zusammen mit den vonibcrsotzlen , nicht verander lichen Funktionen 
der Bibliothek (EVC-PUT, EVC -GET, EVC-RUN und EVC-RESET) — an dem instrumen- 
tierten MODIJLA-Programm gcbunden. 

Da die Hardwarc-Syntht.se unlcr Unistanden mehrerc Stunden dauern kann, wird die 
verwendete Pipeline-Beschrcibung pipe.vhdl nach jeder erfolgreichcn Ausfuhrung 
des Shell-Skripts umbenannt und gespeidicrt, so dafi beim nachsten Ubersetzungs- 
Lauf eine Anderung in der Pipeline feslgestellt werden kann und die Synthese nur 
in diesem Fall ausgefuhrt werden muB. 



7.4 Erfahrungen und Verbesserungsvorschlage 

Die Arbeit mit dem Modula Pipeline Compiler zeigte, daB sidi MODULA- 
2 zur Spczihkation von SP-Rech»er-Anwendungen reclit gut cignet. lis gab koine 
Beispicle, die aufgrund irgendwelcher Bcsonderheiten dieser Sprachc nichl imple- 
mcntiert werden konnten. Ebenso hat. die Entscheidung, die Pipcline-Synthese auf 
der MOBll^Ebene aufzusctzen, zu keinen uncrwarleten Schwierigkeiten -^fiilirt. 
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ich der auf drei Vektor-Eingabe-Ports und eh.cn Vektor-Ausgabe-Port m.t der 
teelegten Sd.rittweite eins besd.rankte PCU-Prototyp war fur alle betrachte- 
i Bcispiele ausreichend. Offensid.tlid. kommen kompliziertere Zugnflsstrukturen 
i den fui SP-Rechner geeigneten Anwei.dungen sclten vor. Jedoch verhmderte 
r nur sequei.tie.ll mogliche Zugriff auf den lokalen Speicl.er fur cinige Programme 
=> Bcschleunigimg durch die rekonfigurierbare Hardware. Diescr Lngpafi kann je- 
'.ch nur durch die in AbschniU 9.4 diskvtierte Verwc.ndung e.ner RE nut mehreren 
►eidierbanken behobcn werdcn. 

Ilerdings stellle sich heraus, dafi die. ln.plcmentierung der Schnittstclle zwischen 
irt mid RE fiir vieie Anwendungen uim.reichend ist: Einerseits we.rde.n beim Kc- 
eren von Feldern auf die EVCl-Karte immer 32 Bit fibertragen, was z B. bei 
vte-Feldern zur Verschwendung von 24 Bit pro Wort, also zu eiuer schr schlechten 
utzung der Ubertragungsbandbreite, fiihrl. Folglich ergeben sich sehr lange Kom- 
unikationszeiten, wie man audi an den im nachsten Kapitel vorgestellten Mefier- 
>bnissen erkennt. Andcrerseits konnen mit dein PCU-Prototyp nur wemge skalare 
ariablen fibertragen werden, weshalb fur manche Anwendungen gar kern Hardware- 
oprozessor synthetisiert werden kann. Wir geben deshalb im nachsten Abschmtt 
nige Hinweise auf mogliche Vcrbessernngen der Schnittstellen-lmplemcntierung. 



'.4.1 Schnittstellen-Optimierungen 

.unachst konnte die Ubertragungsbandbreite der Sd.niltstelle besser genutzt wer- 
en wenn elen.ct.are Date., mit kurzen Wortlangen oder gar cinzelne Bits zu ei- 
em ganzen Wort zusammcngefaCt und gepackt fibertragen wflrden. Dazu . waxen 
usatzliche Anwe.isungen auf dein Wirt sowie paramctrisierbare Parallel/Senell- 
ind Sericll/ParaHel-Wandler h. der PCU notig, urn die Daten vor dem Kopie- 
en zu packen und danach wiedcr zu entpacken. Der Ubersctzer mufite auBerdem 
JjschStzcn, ob sich der hardware- und software-seitige Aufwand hierfur lohnt. 
\uf dieselbe Wcise konnte aucl. die Ubertragung vom lokalen Speicl.er in das FPGA 
.ptimiert werden, wodurch auch dicser Spcid.er besser genutzt und der Pipelme- 
Durdisatz weniger cingeschrankt wiirde. Bei kleinen, nur wenige Bit breiten Opera- 
.oren lieBe sich dann ein sehr hoher Durcl.satz erreichen. Jedodi mviBle erne erwei- 
;erte Steuerung die Pipeline anhalten, wenn Speicherzugriffc notwcnd.g werden. 
Weitergehend konnen Pipelines, in denen nur ein Vektor-Port gelescn oder geschrie- 
Dcn wird, durch Uberlappuug der Pipeline-Ausfuhrung mit der Vektor-Ubertragung 
vom beziehungsweise zum Wirt besd.leunigt werdcn. 4 Jedoch s.nd dann weitere 
Sdileifen-TYansformationen notig, urn bei mehreren Sdilcifen-Ausfuhrungen die er- 
3te beziehungsweise letzte Ausfuhrung optimieren zu konnen. 

>Es muBte also eine Ausnahmebehandlung implementiert werden. Ein 51inlicl.es Problem wurde - 
bei der in Anhang A vorgestellten Schaltiing gelast. lw.-o«ll li»«Sti? 

'Dies wurde in der PCU fur die manuell durchgefuhrten Experiment in [We.96cJ bereiu , 

implementiert. 
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Auch die Eingabe und Ausgabe von skalaren Werten ist bisher wenig aufrieden- 
stcllend gclosl, indem die skalaren Ports fur die Initialisierung nnd das Auslesen 
der Ergebnisse mit alien Rcgistern verdrahtet sind. Wegen des hohen Verdrahtungs- 
und Logik-Aufwands ist dieses Verfahren nur fur wenige Eingabeh und Ausgaben 
brauchbar. Um mehr Register ein- und auslesen zu konnen, konnten sie beispiek- 
weise wie die Vektor-Eingabe-Register zu einem von der PCU gesteucrten nur in der 
In.Uahsierungs- nnd Auslesephase aktiven Schieberegister verknfipft werden. Oder es 
konnten neuere, speziell fur Koprozessor-Anwendungen entwickelte FPGA-Familien 
vcrwendet werden, bei denen das Problem des Zugriffs auf interne Register bereits 
bei der Entwicklung des FPGAs berOcksichtigt wurde: So kann etwa bei der XC6200- 
Scne von Xilinx ein spczielles Interface schnell auf jedes interne Register zugreifen 
so dafl dafiir keinc Vorsorge getroffen werden mufl. 
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Kapitel 8 

Anwendungen und Ergebnisse 



In diesein Kapitel wcrdcn einigc Anwendvingsbeispiele vorgestellt, die mit dem Mo- 
dula Pipeline. Compiler ubersetzt und beschleimigt wcrden koimen. Bei alien 
Ruispiden wurde die Lanfzeit dcr betroflciicn Program mteile mit und ohne Beschleu- 
niguug durch die EVCl-Karte gemesscn. Neben der Gesamtdauer dcr Koprozessor- 
Anfrufc (einschlicfilich Komnumikation und Konfigurierung) wurde auch die reine 
Pipeline- A usfiihrmigszeit gemesscn. So bum die "asymptotisch erreichbare Be- 
schleumgung" (bei vollstandiger Elimination dcr Zusatzkosten) bercchnet werden. 
NYImu deu bier erwahnten Programmklasscn sind die in den Kapiteln 5 und 6 vor- 
gesu-lken Verfahren prinzipiell auf vielc weitcrc Klassen anwendbar. Wcgen der Ein- 
sch rank un gen des Prototyps konnen jedoch nicht alle mil dem MODULA PIPELINE 
Compiler verarbeitet werden. AuBerdein wurde auf die AufTuhrimg von Beispie- 
len ve.r/ichtet . die rmr "asympiotisch besehleunigt n werden, also tatsachlich mit der 
EYCl-Karle langsamcr als in Software laufen. Gleidiwohl konnen soldi e Programme 
auf anderen SP-Rechnern unter giinsi igeren Rahmenbedingungen beschleimigt wer- 
den. 

Die Messungeii der Pipeline- A usfuhrnngs-, Kommunikations- und Konfiguricrungs- 
yr.\u-u sind oi^cntlich :.idit wirklich imere-ssant. Denn sie bestatigen die Vorhersagen, 
die sich aus dcr Schleifcnlange, dcr Zykhiszeit und dcr GroBe dcr Kelder ergeben, 
rerlii gmau. Intcrcssant ist viclmehr die gemesscne Software- Lanfzeit und deren 
VerhaUnis zur Hardware-Laufzeit. Denn genaue Methoden zur Software-Sdiatzung 
konnUn if n Rahmen dieser Arbeit nicht mchr untcrsucht wcrden. Sie sind auch aus 
prinzi pie lien Gr iind^n schwieriger, wie wir bcrcits in Abschnitt 0.4.1 erlautcrt haben. 
Ein direktcr Software/Hardware- Verglcidi kann also nur durch Messungcn erfolgen. 
]ni iijidisi.cn Abschnitt wird zunadist dcr verwendete McBaufhau erlautcrt, bevor 
die ein/eliieu Bcispiele vorgestellt werden. Der letzte Abschnitt dieses Kapitds zieht 
Folgerungci) aus den Ergebnissen vind extra poliert sic fur eine ZiclpIaUforrn r die dem 
tedmischen Stand von 1997 cntspricht. 
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8.1 Der Mefiaufbau 

Fur die Messungen wurde der Modula Pipeline Compiler auf der in Abschnitt 
7.1 vorgestellten Hardware-Plattform verwendet. Dabei konnten Programmiaufzei- 
ten nur mit UNIX-Systemaufrufen gemessen werden. Diese haben eine Genauiekeit 
rei^ e enTii! t /IiIliSekUnde ' ^ ^ ^ MCSSUng ^ Pr °g ramm ^gionen a„s- 

Die Messungen geben immcr die Zeitdifferenz (elapsed time) zwischen zwei Pro- 
gram^ tnpunkten, also zwischen dem Beginn und dem Ende der untersuchten Region 
an. Dies .st d.e Zeit, die cin Anwender warten mu8, bis das Ergebnis der Berech' 
nung vorhegt. Es ware fal.sch, die reine Prozessorzeit zu messen, da dies n„r 
d,e Software orrekt ist. Denn die EVCl-Karte kann a„ch Berechnungen in Hard- 
ware durchfuhren, solange der Prozessor einen anderen ProzeB bearbeitet. Diese 
Zeit wurde also nicht als Rcchenzeit des Prozesses gemessen werden und die Mes- 
s.mg zugnnsten der Hardware verfalschen. Andererseits wird aber die als Zeitdif 
fcrenz gemessene Ausfiihrungszeit eines Prozesses durch Prozefiwechsel verlaneert 
was s,ch w,ederurn starker auf reine Software-Prozesse auswirkt. Andere ProLse 
(Betnebssystem, Netzwerk) lassen sich jedoch in Multiuser-Betriebssystemen nicht 
g^z ausschl.eCen Deshalb wurden die Messungen mit einem moglichsrunbellett 
Rechner dureh^uhrt, was zu wiederholbaren Ergebnissen ffihrte. Die angegebenen 
Werte smd der Mittelwert von jeweils 100 Mefidurchlaufen. 

Die Laufzeiten wurden mit Programmen gemessen, die ohne Ubersetzer-Opti- 
m.erungen entstanden, da der Prototyp des ModulA Pipeline Compiler ke me 
Standard-Opt.m,eriingen enthalt. Lcider konnten auch keine Untersuchungen fiber 
den EmfluB unterschicdlicher CachegroBen oder ahnlicher SystemparSer ^ 
uber deren Ausw.rkungen auf Ubersetzer-Optimierungen durchgefiihrt werden. 



8.2 Beispiele 

In dicscm Abschnitt werden Beispielprogramme aus den Bcreichen FIR-Filter, Zel- 
hdarautomaten, B.ldvcrarbeitnng sowie Mustererkennung in Zeichenketten vorge- 
stellt. Fur jedes der Programme werden Messungen der Software- und Hardware- 
Laufzeit der erre.chtcn Beschleunigungen sowie des Hardware-Bedarfs der Kopro- 
zessoren (cinschlieBlich PCU) prasentiert. P 

8.2.1 FIR-Filter 

Die crste betrachtete Program mklasse sind FIR-Filter*. Sie werden in der digilalen 
S-gnalverarbeUung fur viele Zwecke eingesetzt. Wir betrachten hier ein achtstufiges 
Filter zur S.gnalglattnng, das jed en Wert durch den Durchschnitt der acht umge- 

1 F1R = Finite Impulse Response 
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CONST N = 200000; 

VAR X: ARRAY [0,.N-l3 OF CARDINAL; 

I, ITER: INTEGER; 



FOR ITER := 1 TO MAX ITER DO 



FOR I 


= 0 TO N-8 DO 




X[I] 




X[I3 


DIV 8; 




x[i] 




X[I] 


+ X[l+13 


DIV 8; 


X[I] 




x[i3 


+ xEi+23 


DIV 8; 


X[I] 




X[i3 


+ x[i+33 


DIV 8; 


X[l] 




x[i3 


+ X[I+43 


DIV 8; 


X[I] 




x[i3 


+ xEi+53 


DIV 8; 


X[I] 




x[i3 


+ Xtl+63 


DIV 8; 


x[i3 




X[I3 


+ X[I+73 


DIV 8; 



END; 
END; 

Abbildung 8.1: Einfaches FIR-Filter 

benden Werte ersetzt. Da nur konstante Koeffizicnten mit dem Wert | auftreten, 
kann dieses Filter in nur einem FPGA implemeutiert werden. Abbildung 8,1 zeigt 
das einfache Filterprogramm. Es fiihrt dieselbe Funktion wie unser Programmbei- 
spiel aus Abbildung 5.1 aus, opcriert abcr nur auf einem Vektor dcr Lange 200000. 
Die veranderten Werte werden also direkt in denselben Vektor zuruckgeschrieben. 
Dic resultierende Pipeline entspricht der Beispiel-Pipeline aus Kapitel 5 (si ehe Ab- 
bildung 5.8) mit adit Filterstufcn. Da sie nur einen Vektor-Eingabe- und einen 
Vektor- A usgabe-Port beniUzt, betragt der Pipeline-Taktzyklus 150 ns. 



Algorithmic 


einfaches FIR-Filter 


kombiniertes FIR-Filter 


Jterationszahl 


1 


10 


1 


1C 


> 


Dauer/Bcschleunig. 


D |s] 


B 


D[s] 


B 


D[s] 


B 


D[s] 


B 


Software- Laufzeit 


1 .020 




10.276 




1.704 




[ 15.497 




Pipelrne-Ausfiihruiig 


0.030 


34.00 


0.300 


34.25 


0.030 


56.80 


0.300 


51.66 


HW m. Komm./Kcmf. 


0.455 


2.24 


0.706 


14.56 


0.611 


2.7U 


0.914 


16.96 



Tabelle 8.1: Laufzeit-Messungen FIR-Filter 



Tabelle 8.1 zeigt die gemessenen Laufzeiten dieses Programms und des erweiterten 
Programmbeispiels aus Abbildung 5.9, das einen Zufallszahlengcnerator mit einem 
FIR-Filter (fur die Messungen ebenfalls achtstufig und mit Vektorlange 200000). 
koinbiniert. Die reine Ausfuhrungsdaucr der Pipeline ist hei heiden Programmer! 
gleich, da sie nur von der Schleifenlange und dem Pipelinetakt abhaiigt. Dagegcn. 
ist die gesamte Hard warc-Ausriih rung (letzte Zeile in Tabelle 8.1) fiir das kom- 
binierte FIR-Filter langer, da dieses Prograrnm die Eingaben und Ausgaben des 
Filters in getrennten Vektoren speichcrt, die beide zum EVC1 und zuriick kopiert 



108 



KAPITEL 8. ANWENDUNGEN UND ERGEBNJSSE 



werden miissen. Da jedoch das kombinierte Filter mehr Operationen in einem Zy- 
klus durchfuhrt, ist auch seine Software- Lauf2eit langer, so dafi sich insgesamt eine 
hohere Beschleunigung als bei dem einfachen FIR-Filter ergibt. 
Bei beiden Beispielen belegt der Koprozessor 43% der Hardware-Ressourcen des 
verwendeten XC4013 FPGA. 

8.2,2 Zellularautomaten 

Zellularautomaten — bzw. genaugenommen Programme zur Simulation von Zellu- 
larautomaten — stellen eine weitere geeignete Anwendungsklasse fur den Modula 
Pipeline Compiler dar, da auch hier gleichartige Operationen auf grofien Da- 
tenmengen durchgefuhrl werden. AuBerdem kann bei den meisten Automaten der 
Zustand jeder Zelle mit wenigen Bit reprasentiert werden, und die Zustandsiiber- 
gangsfunktion cntspricht einem endlichen Automaten. 

Als Beispiel eines Zellularautomaten verwenden wir das bekannte "Game of Life": 
In dem Spiel haben Zellen in einer zweidimensionalen Ebene entweder den Zustand 
lebendig oder tot Die Zellen and em ihren Zustand gleichzeitig einmal pro Genera- 
tion. Der neue Zustand hangt von dem alten Zustand der Zelle selbst und ihrer acht 
direkten Nachbarn folgendermaBen ab: 

• Eine lebendige Zelle uberlebt, wenn zwei oder drei Nachbarn lebendig sind. 

• Eine tote Zelle wird lebendig, wenn genau drei Nachbarn lebendig sind. 

• Andernfalls ist die Zelle in der nachsten Generation tot. 

Das Programm in Abbildung 8.2 implemcntiert dieses Spiel. Aus seiner inneren 
Schleife wird der in Abbildung 8.3 dargestellte Datenfiufi-Graph erzeugt. 
Mit diesem Programm wurde die erste und die hundertste naclifolgendc Generation 
einer gegebenen 400x400 Zel I konflgu ration berechnet. Tabelle 8.2 zeigt die gemesse- 
nen Software- und Hard ware-Laufzei ten und die erreichten Beschleunigungen. 



berechnete Gcnerationen 


1 


100 


Daner /Beschleunigung 


D[s] 


B 


D[s] 


B 


Soft ware- Lan f zei t 


1.658 




173.420 




Pipeline- A usfuhrung 


0.044 


37.68 


4.761 


36.43 


J1W mit Komm./Konf. 


0.608 


2.73 


5.326 


32.56 



Tabelle 8.2; Laufzeit-Messungen "Game of Life" 

Besonders bei der Berechnung vieler aufcinanderfolgender Generationen ergibt sich 
eine hohe Beschleunigung. Denn die Hardware kann in jedem Pipeline-Takt den 
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PLAIN = ARRAY [O..VERLEH-13,[O..HORLEN-13 OF [0..U; 

TWOPLAINS = ARRAY [0...1] OF PLAIH.; 
P: TWOPLAINS; 

ITER, V, H, SRC, DEST: INTEGER; 
SUM: [0,-15]; 

SRC 0; 
DEST := 1; 

FOR ITER := 1 TO MAX ITER DO 

(* Compute next generation. Result goes in P [DEST] - *) 
FOR V 1 TO VERLEN-2 DO 
FOR H :« 0 TO HORLEN-3 DO 

SUM ■= (PtSRC,V-l,H ■ ] + P[SRC.V-l,H+l3 + P[SRC,V-1 ,H+2] ) + 
(PISRC.V ,H 1 + P[SRC,V ,H + 23) + 

(P[SRC,V-H,H ] + P[SRC,V+1,H+1] + P[SRC ,V+1 ,H+2] ) ; 
IF (SUM - 3) OR CCSUM - 2) AND (PtSRC , V ,H+l] - D) THEN 

P[DEST,V,H+1] : = 1; 
ELSE 

P[DEST,V,H+H 0; 
END; 
EHD; 
END; 

(* Switch source and result. *) 
DEST := SRC; 
SRC := 1 - SRC; 
END; 



TYPE 
VAR 



Abbiidung R.2: Game of Life 



Kol-c/.ustancl einer Zdlc brredmoii. Diese logisdie Verkniipfung der Zustande ist 
in Software nur mil. relativ vieWn Additions- mid Vergicichs-Befchlen mogbeb. Der 
I'ipdine-Durdisatz konntednrdi cine Opumicrungdcs Zugrifls anf den lokalen Spei- 
clirr sogar nodi weiter erhoht word™ (vgl. Absdmitt 7.4.1). Demi in der vorliegcnden 
Implemeni.iernng wivd von jedcni 32-Bit- Wort im Speicher nur ein Bit verwendet, 
die E/A-Bandbrcite also nur sehr sdilccht ausgeniitzt. 

Ebenso wird fiber die Srhnit tsi-<dle zwisdicn Wirt und RE fur jede '/die em ganzes 
Wort i.bertragen, obwold ein Bit ausreidicn wiirde. Folglidi kann audi die Kommu- 
nikavkmszcit sigiiifikant reduzieri werden. A us diescn Grunden -ist fur dicse Anwen- 
dung • - audi unier Beibdialtung der EVCl-Karte als Ziel-Hardware — nodi erne 
whcblidie Lcsstiiiigsstcigerunj; gegemtber den hier gemcssenen Werten moglich. Cine 
kompliziorlcrePCU ware audi im XO1013 nodi implementierban da der Koprozcs- 
sor mil der momcnlan verwt-udeven PCU nur 26% der FPGA-Rcswmrccn bdcgl. 
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P[SRC,V-1] 



P[SRC t V] 



P[SRC,V-H] 



+ 

IT 



+ 



>= 3' 



SUM 



'=2* 



V 



•= r 



& 



PPEST.V] 

Abbildung 8.3: DatenfluBgraph "Game of Life" 



8.2.3 Bildverarbeitung 

Hier stellen wir die genauen Laufzcit-Mcssungen der in Kapitel 2 ausfiihrlich be- 
trachteten Bildverarbeitiingsalgorithmen vor. Sie sind den vorgenannten Beispielen 
insofern ahnlich, als sie auch als Zcllnlarautomaten oder als '/we Him.?r.sionale Fil- 
ter betrachtet werden konnen. Der Bildglattungs-Koprozessor belegt 30% und der 
Kaiiteiidetektions-Koprozessor 41% der FPGA-Ressourcen. 



Algorithmus 


BildglatLung 


Kantendetektion 


Iterationszahl 


1 


10 


1 


10 


Dauer/Beschleunigung 


D[s] 


B 


D[s] 


B 


D [s] | B 


D[s] 


B 


Software- Laufzeit 


0.563 




5.632 




0.906 J 


8.810 




Pipeline- A usfu lining 


0.026 


21.65 


0.263 


21.43 


0.027 1 33.81 


0.266 


33.15 


HW mil. Komm./Konf. 


0.439 


1.28 


0.690 


8.17 


0.437 1 2.07 


0.681 


12.94 



Tabelle 8.3: Laufzeit-Messungen Bildverarbeitung 
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i.2.4 Verarbeitung von Zeichenketten 

Ichliefilich eignen sich viele Algorithmen, die Zeichenketten verarbeiten, fur erne 
mplemcntierung auf SP-Rechneni, da auch hier iterative Operationen auf Daten 
:urzer Wortlange (in der Regel acht Bit) ansgefiihrt werden. Wir demonstrieren 
lies an einem eiufachcn Programm (Abbildung 8.4) zur exakten Mustererkennung: 
)er Ausgabevektor Y euvhalt an deujenigen Positioncn eine eins, an denen in dem 
Siugabetext X (Laiigc K) due vorgegebenc, kiirzere Zeichenkette P (das Muster der 
.ange L) beginnt. Abbildung 8.5 zeigt den generierten Datenflufigraphen. 

VAR X : ARRAY CO.. N ^1] OF CHAR; 
Y : ARRAY [0. .N-l] OF [0..1]; 
I, J : CARDINAL; 

FOR I := 0 TO N-L DO 
Y[I] :« 1; 
FOR J ~ 0 TO L DO 

IF X[I+J] <> PD3 then 

Ytl] : = 0; V 
END; 
END; 
END; 

Abbildung 8.4: Mustererkennung in Zeichenketten 





A 




1 — A 




'OP|0]' 


U~ 'OP[|)' 



-> A 



*oP[2]' 



'oiW 




Abbildung 8.5: Daten flu Bgraph Mustererkennung 

Die Laufzeitmessungen in Tabclle 8.4 wurden fur einen Eingabctcxt der Lange 
100000 vorgenomincn. Es warden zwei vcrschiedene Programme — mit Mustern der 
Lange 30 und 20 — gemessen. Hicr crgibt sich die Beschleunignng, da jede. Position 
des Eingabctcxtes in einem Pipcline-Takt mit dem ganzen Muster vcrgiichen wird. 
Deshalb ist die Dauer der Pipeline-Ausfuhrung auch unabhangig von der Lange des 
Musters, wahrend die Software-Laufzeit naturlich direkt von ilir abhangt. ■ 
Auch fiir dieses Programm gilt die im vorhergehenden Abschnitt gemaohte Bemer^ 
kung, daB das Ergcbnis durch Schnittstellen-Optimierungen erhchlidi vcrbessert 
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werden konnte. Da die Koprozessorcn nur 26% bzw. 28% der Hardware- Ressourcen 
belegen, ware dies problemlos auf'dem EVCl moglich. Audi konnten noch wesentlich 
langere Muster verarbeitet werden, was zu entsprechend skalierten Beschleunigungen 
fuhren wiirde. 



Lange des Musters 


10 


20 


Dauer/Besehleunigung 


D[s] 


B 


DM 


B 


Software- Lau fzei t 


0.767 




1.443 




Pipclinc-Ausfuhrung 


0.015 


51.13 


0.015 


96.20 


HW mil Kornm./Konf. 


0.382 


2.00 


0.384 


3.76 



Tabelle 8.4: Laufzeit-Messungen Mustererkennung 

Das in Abschnitt 3.4 erwahnte Problem, die Editierdistanz zweier ahnlicher, aber 
nicht exakt gleicher Zeichenketten zu bestimmen, kann mit der vorliegenden Ver- 
sion des Modula Pipeline Compiler nicht bearbeitet werden. Dazu ware eine 
Erweiterung der Schni Osteite zum Lesen vieler skalarer Ausgabewerte notig, wie sie 
in Abschnitt 7.4.1 vorgeschlagen wurde. 

8.3 Folgerungen 

Die Messungen zeigen, daB sich fur die untersuchten Beispiele durchweg eine reine 
Bcschlcunigung (ohne Berucksichtignng der Kommunikations- und Konfigurierungs- 
zeiten) von einer bis zwei GroGenordnungen ergibt. Dieser Faktor ware bei Kopro- 
zessoren, die die Ressourcen des XC4013 starker auslasten, also mehr Operationen 
parallel durchffihrcn, noch grofier. Denn die Auslastung liegt bci alien betrachteten 
Beispiclen unter 50%, zum Teil sogar unter 30%. Noch hohcre Beschleunigungsfakto- 
ren konnen erreicht werden, wenn unscre weitgehend maschinenunabhangigen Uber- 
setzungsmethoden fur grofiere SP-Rechner mit mehreren FPGAs cingesetzt werden 
und tiefe Pipelines mit hohem Parallelitatsgrad synthetisiert werden. 
Wcgcn der bereits mehrfach erwahnten Unzulanglichkciten der EVCl-Karte sind 
die erreichten Gesamt beschleunigungen (einschlie&ich Zusatzkosten) jedoch leidej; 
ctwas unbefricdigend. Die EVCl-Karte entspricht aber etwa dem technischen Stand 
von 1993. Fur neucre SP-Rechncr konnen unter giinstigeren Rahmenbedingungen 
wescntlicli bessere MeBwerte, die naher an den asymptotischen Grenzwerten liegen, 
erwartet werden. 

Dies soil mit einer Modellrechnung, die realistischc Annahmen fiir eine FPGA-Karte 
auf dem tcclmischen Stand von 1997 triflft, verdeutlicht werden: Wir gehen von einem 
PCI-Bns-System aus, bei dem mit DMA-Kanalen eine Ubertragungsrate von etwa 
100 MB/s erreicht werden kann. Dies entspricht bei 32-Bit- Worten einer Kommu- 
nikationsdauer von circa 40 Nanosekunden pro Wort, ist also etwa 12 mal schneller 
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als die beim EVCl vcrwendeic Impleme.ntienmg der SBUS-SehniUslclle (500 Nano- 
sckimdcn pro Wort). Als rckonfigmierhare Hardware wird cin neues XC6216 FPGA 
(vgl. AbschniU 3.1.2) verwendet , dessen Gatterkomplexiiat etwadem im EVCl ver- 
wendeten XC4013 entspricht, das alwr wesentlich sdmcllcr koiifigurierl wcrden kann: 
Wir iichmcn eine Konfiguricrungssscii von einer Millisekui'de uber den PCI-Bus an, 
also cine ettva 200 mal schnellere Konflgm ienmg als beim EVCl . Schliefilich wird bei 
Verwendung von SRAM-Banste.inen mil 20 Nan osek under* ZugrifTszeil eine doppelt 
so holic Takt.freque.nz (c:irca 40 Mil/) fiir lokale SpeieherzugrifTt* moglich, wodurch 
sich die erreichbare Pipcline-Taktfrequcjiz audi verdoppclt. 



Arcliit.ckt.nr 1 


FVCj/SHliS || XC6236/PCl-Bus 


A usf fi Itnin gsstci ten [ 






Tp/Tuw (j T P Js] | Tnw M | 7>/7W 


einf. FIH-Pilter (1 x) || 0.0:ifi 


0.455 


0.6% || 0.015 


0.034 


44.1% 


cinf. FJK-Filter (10 x) [j 0.300 


0.706 


42.5% | 0150 


0.167 


89.8% 


komb. i'lR-Fillcr (1 xj i 0.030 


0.011 


4.9% 0.03 5 


0.046 


32.6% 


[ komb. FIR-Filter (JO x) | 


0.300 


0.914 


32-8% II 0.350 


0.184 


81.5% 


["Came of bife (1 x) 1 


0.044 


0.608 


7.2% 0.022 


0.052 


42.3% 


! Game of Life (300 x) 


4.701 


5.326 


89.4% || 2-381^ 


2.411 


98.9% 


BildglSUunf: (1 xj |! 0.02G 


0.439 


b.9% 0.01 F 


0.031 


41.9% 


Bildgliiuimg (30 x) 


! 0.263 


0.690 


38.1%- j) 0.3 32 


0.151 


87.4% 


Kantendctekuon (In) 


■ 0.027 


0.437 


6.2%, 1 


0.014 


0.032 


43.8% 


Kai»u:ndet.ekt.m» (30 x) 


j 0.266 


0<>8J 


39.1% | 


0.133 


0.351 


88.1% 


M uMcrerkenimiig 


; 0.03 0 


0.3£2 | 3.9% | 


| 0.008 | 0.022 | 36.4% 



Tabcllc 8.5: Areliiukuii vcrgleieh der Hardware-Ausfulmmgszciten 



Die Ihirdwarc-AusfiihruiiKs/eivvji alter in diescm Kapitcl anfgefuhrten Bcispielpro- 
gran.ine worden auf dim* XCG21 O/PCl-Bus- Arcliiiektur iibertragen. Ta-bclle 8.5 
sulll die anf der l-;VCl/SHi:S-An-|iiU:ktiir gemessenen Aiisfuliningszciten fiir die 
Pipeline (7» nnd fiir den ganzen Hardware- A uTmf (T H w) den Voraussagen fiir 
die.se none ArchhekUir gegeimbci. Dabei wird fiir jede Ardiiicktnr audi der prozen- 
Uiale Anteil der reinen Pipeline- Ausfuiirungsztit an der Gcsainlzcit der Hardware- 
Ausfuhrung (7>/7W) angegeben. 

Die Tabelle zcigt folgendes: Die reinen Pipeline- Ansfiihningszeiten wcrden durch den 
sdmellercn Spcidier zwar lialbicrK aber wegen der and) in der neuen Archileklur 
redit bosdirankt.cn llardwarc-Rcswmrccn (run em FPGA).i*icbt weilcr rednzicrt. Je- 
dodi yind die Konimunikat ions- unci Konfigunerungszeitcn bei moderiien Bus- mid 
FPGA-Ardiitektnren wosenvlirh ge.ringcr als beim EVCl, so dab* das beim EVCl 
gemessene krasse MiBvcrhallnis. -/.wifidicn taisacbliclicr Bereclmnngszcit nnd Zusatz- 
kosl-en (z. T. weniger als 5% fiir die eigenllidie Berediinmg) niehi- rnehr auft-ritt: 
Bei der JV.odellicrten Ardiitektur b«vuagl der Berechmmgs-Anlcil immcrhiii zwisriimi 
circa ?>b% unci 80%. Die neuere.h Kntwkklun&en koimnen also den Aiifonlmmgeii an 
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d.e Geschw.ndigkeit der Komrmmikation und der Konfiguriemng, die sich in dieser 
Arbeit herausgestellt haben, entgcgen, so daB fur zukunftige Architekturen mit einer 
we.tcr verbesserten Eignt.ng fur pipeline-basierte Koprozessoren gerechnet werden 
kann. Jedoch darf gleichzeitig nicht vergessen werden, dafi auch neuere Mikrooro- 
zessoren wesentlich schneller als der von uns verwendete SuperSPARC-Prozessor 
sinci. 

Insgesamt haben die Ergebnisse der mit dem Modula Pipeline Compiler durch- 
gefuhrter. Experirnente gezeigt, dafi geeignete Programme mit den in dieser Arbeit 
entw.ckcltcn Verfahren durch rekonfigurierbare Koprozessoren significant beschleu- 

vefalt^cn EVClT; ^""J"* die Verwendung der iazwischen 

veraitetcn EVCl-Karte ungunstiger als erhofft ausfielen. 
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Kapitel 9 
Erweiterungen 



Dieses Kapitel ■ zcigt versdiiedenartige Erweiterungsmoglidikeiten der pipeline- 
basicrten Slrukturprogranmncrmig auf. Dies betrifft einerseits Erweiterungen der 
Analyse- mid Syntlieseverfahren ui)ter IJeibchaltung des in Kapitel 6 zugrundege- 
legtc'n Masdiinemnodells! Andererseits werden auch Anderungen und Erweiterungen 
betraclnet, die fur koniplexere strukturprogranimierbare Rechner benotigt werden, 
und mogliche Erweiterungen der Eingabesprache diskutiert. 

9,1 Synthese- Erweiterungen 

I'm fiir niehr Programme iolmende Pipelines synthetisieren zu konnen, sind vor 
allem die beirien iin fo^enden genannten Erweiterungen relevant. Daneben sind 
weitcrc Sdialtinigs-Opiimicrimgeii jnoglidi, die sich jedoch nicht so stark auf die 
Leistungsfahigkcit der Pipelines auswirken. 

9.3.1 Speziclle kombinatoHsche Funktionen 

hi Absdinitt 5.1 wurde bneit.s erwahnt, dafi die Vektorisicrung von in Schlcifen auf- 
treU-nden spcziellen konibim.lorisdjcn J : nnktioncn ein besonderes Beschleunigungs- 
potemial bietet. Dcnn wain diese Funk lion en, die schon isoliert wcscntlich schneller 
auf einer 11E als auf dem Wirt beredmet werden konnen, iterativ und ]>arallel in 
einer Pipeline aiisgefuhrt werden, wird die Beredmung iiochmals urn den Bcschleu- 
nigungsfaktor der Pipeline schneller. 

Kine cinfadie Integrationsnidglichkdt stellt die Annotation dicser Funktionen im 
Eingabepj ogranun dar : wenn fiir sic ein (rein kombinatorischcr) benutzerdefinierter 
Hardware-Operator zur Yerfiigung ge.si.cllt wild. Die Funktionen konnen dann von 
der Fipelinc-Synthese wit gewohnlicbe Operatoren behandclt werden. 
Altcrnativ konnen die Operatoren auch automated) (wie im PKJSM-Systern durch 
Logiksyiithese) aus dem Eingabeprograinm generiert werden. Da-zu sind jedoch gc- 
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naue Kriterien zur automatischen Erkennung dieser FunkHm,™ j- 
wickelt warden mfissen. Sind diese Kriterien erfQll werden die ? ' . no «*- 
Anktian mr Synthese ei nes speziellen iJlSSriS^S^T^ ^ 
JJj. Andemfalis We iber 1 die A HW eis„ ngen -^-^'t^S^ 

9.1.2 Speicherzugriff in Pipelines 

sssiisillHss 

^^^^ 

-^^SSSl* ^""^eit «P— wesentHch be einflufit> eig net S ich ' 
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tin allgomeines Feld. das in dcm Schlcifenrurnpf nur eimnal gclcscn und geschrieben 
wild, sinnvolL.Dann stud mir wcnigo zusiitzliche interne Pipeline- Zustande und Steu- 
ersignale noiwendig. Dies ist etwa bei dcuj bercils crwahntcn. Beispie.l aus Anhang 
A der Fall. In der Schaltung wurde fur das allgcmcine Feld eine eigene Speicherbank 
nurd, das in der Xilinx-4000-Serie verfiigbare sehr sduiclle On-chip RAM realisiert. 
So koi.nu- trot.z der /usatzlichen RAM- Ansteuerung dersclbe Pipeline-Takt (150 
it?) v.it bd dner einfadien Pipeline mil cincm Eingabe- und einein Ausgabe-Port 
» in iri;i vcrden. Wcnn auf dem verwendeten PPGA on-chip RAM implementiert 
w< nit i: koiin, ist. der zus;il cliche Speicljerzugrill" in der Pipeline also audi in unserem 
Mast liiitenmodell mil nur cincr extenicn (off-chip) Speiclicrbank inoglich. 



0.2 Schleifen-Transformationen 

Nrbi-i; den auf nicdrigoicr Ebcne ;uisetzenden Synlhcsc-Erweiterungen konnen 
audi * lit: von klas.sischen Yektorisicrern hckannten komplexercn Schleifcn-Trans- 
fom:.\iiomn auf Quellsprach- Ebene {vgl. Alisclmilt -1.4.2) xur Erweiterung und Fle- 
xiiiilisi* j »ing m: seres Verfahrcns eingesetzl werdeii. Fur einen Pipcline-Ubersetzer 
sii.d allem die Sohleifen-Aufailung und der Schleifcn-Austausch fur die iin fol- 
ft-ndeii gciiaiiiilerj Opt iniicningen rdevant. Es nnissen jedoch Kritcrien entwickelt 
wi rdt ii, anliaud derer ein Ubcrseixcr eni.sdicidet, ob sich eine Transformation lohnt. 



9.2.1 Vcktorisicriing der langsleri Schleife 

l in dlizirnu PijK liui s v.w synthei \y\cn u. solluji moglichst lnnge Sddeifen verwendet 
\\k.\ den. 1st aber cine i micro S( -hid ft: sehr kurz (odor gar nieht vektorisierbar), so 
kann in * iiii^t n Fallen durch Sddeifen- AiiMausch eine wesentlidi langcrc Schleife 
vektorisicrl warden. 



9.2.2 Bohebung von Hard ware- En gpassen 

FOR I := 1 TD R DO FOR K := 1 TO L DO 

FOR I := 1 TO K DO FOR K := 1 TO L DO FOR I := 1 TO N DO 

FOR J := 1 TO L*M DO FOR J 1 TC M DO FOR J := 3 TO M DO 

K(XL2J ,YLJ]>; K(X[1] ,Y[(K-3)*KrfJD); F(X [1] ,Y t(K-l)+M+J] ) ; 

END END END 

END END END 

END END 

(a) 

(b) (O 

Abbiiduii^; <U : Transformation v.\\i Bebcbimg cines Hard ware- Engpasses 
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Abbildung 9.1 zeigt eine Transformation, die angewendet werden kann, wenn die 
verfugbare Hardware fur eine Pipeline nicht ausreicht. Da innere Schleifen eines 
Pipcline-Kandidaten ausgerollt werden, bestimmt ihre Lange die Zahl der spater 
notigen Hardware-Operatoren. Dies ist etwa bei der zu vektorisierenden I-Schleife 
in Teilbild (a) der Fall. Deshalb teilt die Transformation von (a) nach (b) zunachst 
die innere J-SchJeife in die K-Schleife und eine kurzere J-Schleife auf. Danach ver- 
tauscht die Transformation von '(b) nach (c) die I-Schleife und die K-Schleife. So 
gelangt die neue Schleife ganz nach aufien und wird somit unabhangig von der Vek- 
torisierung. Dafur ist die innere J-Schleife jetzt kurzer, wahrend die Lange der jetzt 
mittlercn, zu vektorisierenden I-Schleife unverandert bleibt. Bei der Normalisierung 
wird also die ursprungliche innere Schleife nur partiell aufgerollt, was in dem redu- 
zierten Hard ware- Bed arf resultiert. 

Da die Aufteilung der inneren Schleife in das Produkt L*M nicht vorgege- 
ben ist, sind bei dieser TVansformation verschiedene Flachen/Geschwindigkeits- 
Kompromisse (bziv. Flachen/Parallelitats-Kompromisse) moglich. Und falls die ur- 
spningliche Lange der inneren Schleife nicht in geeignete Faktoren zerlegbar ist, 
kann sie kunstlich verlangert werden, indem zusatzliche "neutrale" Werte fur die 
Berechnung F zugefiigt werden. (Bei einem FIR- Filter waren dies beispielsweise Ko- 
effizienten mit dem Wert 0, die das berechnete Ergebnis nicht verandern.) Dieses 
Vorgchen ermoglicht auch die Behandhing von Kandidaten mit variabler innerer 
Schleifenlange (d. h. Pipeline- Lange), die" von dem ursprunglichen Verfahren nicht 
behandelt werden konnen. 



9.2.3 Behebung von lokalen Speicher-Engpassen 

Wenn der lokale Speicher fur alle in der Schleife bearbeiteten Daten zu klein ist, 
kann cin cinfacheres Vcrfalireu verwendet werden: Durch Aufteilen der Kandidaten- 
Schleife in mehrere kleinere Blocke wird auch der zur Pipeline- A usfuhrung benotigte 
lokale Speicher klein er. 

Ailerdings mu8 dazu genau bestimmt werden, welche Teile eines Feldes von einer 
Schleife definiert und benutzt werden. Eine solchc clementgenaue Analyse der Da- 
tenahhangigkejten konnte auch prinzipiell von alien Koprozessoren genutzt werden, 
um unnotige Ubertragungen einzusparen. 

9.2.4 Auflosung irregularer Abhangigkeiten 

Schliefilich konnen wir irregulare, schleifengetragcnc Vektorabhangigkeiten (vgL Ab- 
schnitt, 5.3.1) durch eine Transformation aunosen: Werden die Iterationen, zwi- 
schen denen cine Abhangigkeit besteht, explizit bestimmt, dann kann die Schleife 
so in einzelne Blocke aufgeteilt werden, dafi innerhalb eines Blocks keine irregularen 
Abhangigkeiten bestehen. Folglich konnen die Blocke einzeln vektorisiert werden, ) 
wodurch wieder fur mehr Falle eine Pipeline-Synthese moglich wird. 
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5.3 Erweiterung der Partitionierung 

VnrJi fur das vurgcschlagcne ParUtioiiieriing$-VciT;i]iren sind mchrere Erwciterungen 
noglich. 

}ei gcniigend B aid ware- Ressourcen konneii mchren: Pipelines auf eincm FPGA zu- 
aiiiimt*ugefatit werden, daniii nicht zwischen jeder Pipeline umkonfignriert wcrden 
nufl. Dies isi al)erdings nur sinnvoll, wnvn cs nicht durch eine Verringcmng der 
Pi.ralU-li1.at der einzclnen Pipelines crkauft werden mufi. 

Die Ansteucrung kann von der PCU iibernommen werden, indem die Fingabcn und 
SteneiVignale an alte Pipelines verteiH werden. Von alien Pipeline- A nsgaben werden 
riami durch Multiplexer (oder dutch cinen Tri- Si site-Bus) die richtigen ansgewahlt. 
Die. Answahl wird durch ein vom Wirt gesct-zies Register gesteuert. Der Hardware- 
Bedarf ergibt sir.h aus der GroBc einer PC13, der einzehicn Pipelines und der zusatz- 
lich benotigten Multiplexer. 

Bei melireicn Pipelines miisscn Yerfahren zur Br-stiniiming der giinstigstcn Koin- 
binr.iion fur einc Konfiguration entwiekelt werden, die durch Kombination von 
nachciuander aufgerufenen Pipelines die Zahl der erforderlichcn Rekonfigurierun- 
gen so weit wie moglich reduzieren. Bei mehreren oder partiell rekonfiguricrbaren 
FPGAs mutt die Partitionienmg auch festlegen. wann welche FPGA(-Tcile) rekonfi- 
guricrt werden. Auch eine (event nell speknlaiivc) Yorkonfigurierung der gcrade nicht 
benotigien FPGAs ist denkbar, uui Ausfulmmgszcit einztisparen. 

9.4 Verallgemeinerung des R.echner-Modells 

Da«- in dieser Arbeit entwickcllo Verfahren isl prirr/ipiell anf verschiedenartigen SP- 
Iverhner-Aiehitekturen anwendhar, deim die Pipeline- Synthase ist von der vcrwen- 
iit ten FPC^A-Archite.kuir unabliangig, und die vovausgesctzten Lai ifzeit- Funk tionen 
zur I)at.enubert.ragunR in den lokalen Speie.her konnen bei direkter Kopplung mil 
eincm DMA- K anal oder - wie beim K-YOJ - indirekt unler Kinbcziehung von 
FPGA-Rcssouivcij impleme.ni.ien werden. Jedoch treten bei komplcxcren Architek- 
turen znsatziiclu: Schwiei igkeiten und audi neue Optiniicrungsnioglichkciten auf. 

9.4.1 Mehrere Spcicherbanke 

Sind auf einein SP-Rerhner mobrerc Speicherbiinke vorhanden, so lnfissen die von 
einer Pipeline vcinrbeitcicn Wkroren (und evenluoll allgomeinen Folder) auf diesc 
Banke verteilt werden. Hies sollte so vorgeijommen werden, dab" auf die Banke 
muglichst gleiriizeitij! ziigegrifJen werden kajm. Beispielsweisc konnte dor Kingahe- 
vcktor einer einrachen Pipeline in Speicherbarik A und der Ausgabevektor in Bank B 
iiegen. So wird die Pipeline- Xykluszeit T c verkiirzt. da Schreiben und Lesen gleieh- 
zeilig erfolgen kouncji. 
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Jedoch s.nd manchmal zusatzhche Analysen und Programmtransformationen noti K 
urn d.ese Aufte.lung vornehmen 2U konnen. Sind zwei Vektoren etwa TeilfJ^d^ 
sclben Fe des, so .nufi analysiert werden, ob die Teilfelder MAY-AIiase sTnd dS a2> 
uberhaupt n.cht auf zwei Banke vertei.t werden konnen. 1st dies nicht der 
.nufi das Fdd (zum.ndest konzeptionell) in zwei Felder zerlegt werden, damit bd der 
Adrcss.en.ng der e.nzdnen Tei]felder die richtige Speicherbank angespSen wird 

9.4.2 Multi-FPGA-Architekturen 

Besteht due Architektur aus tnehreren FPGAs, mufi die Schaltung auf diese ver- 
te.lt werden > Wegen der begrenzten Zahl der Pins, die zwei FPGAs verbinden Zt 
d.es schw.er.ger als die Verdrahtung einer Scl.a!t„„g in einem grofieren FPGA' £ 
besteher . allgcme.ne Ansatze zur SchaHungs-Partitionierung. Sie zu verwfnden £ 

SK!;sr 1,e st - r r der pipeHnes aus » ^-Si ? 

"ZSte* 2t M f- * ?'* S ° Werden k6nntC ' daB die Partitionierung 

erlcchtert wird Man konnte etwa eine verteilte PCU enlwerfen oder bestimmte 

SS^ ,et) ™« - ™As implemenSn! urn 

AUerdings kann die Schaltungs-Partitionierung nicht unabhangig von der Speicher- 
in FPPA r h , tCt Werde "' da diC S P ei ^anke typischerweise mit veSedt 
lll^ Tt " nd 80 die P ^itionieru„g der Scha]tu„g davon abhangt 

iTlntrpll " SpdCh T bank ,iegen " Denn bei e-Beren LhitekturS 
I aS ppSAs u ;Sr g mCht m6S,iCh ' Datenleit -^ Speicherbanke 



9.5 Erweiterungen der Eingabesprache 

Ffir vide Wndungen - insbesondcre in der Signal- und Bildverarbeitung - ware 
« schr nutzhch, we„„ die Eingabesprache aber Festkommatypen und -oLatZn 

Z"T WUrde -- DCn " in ViC,e " FiiHcn rekhen Fcstkommawerte aus Da d em^ 
sten Pro 6 ra mmi ersprachen aber m.r Gleit.k 0 „ im atypen zur Verfugung stel en f St 

tS^SSS^^ " VCrWenden - D ^ ^ Jiederum'dt 

Eine Alternative zur Anderung der Sprache ware eine automatische Ersetzung von 
Gle, .ko„„„ M ahlen durch Feslkomn.azahlen, wo dies semantisch aquivalent Z oTr 

tTZtZl' Bi,den,) Ukht Ein^solche ErSz 1" 

1st aber kaum automat.sch durchzufuhren. ^mig 

Einige Hardware/Software-Codesign-Systeme verwenden Zeitbedingnng'en in der 
er fur Ed.tze.t-Anwendungen ,n eingebetteten Systemen verwendet werden soli. 



"engl. chip partitioning 
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Kapitel 10 

Zusammenfassung und Ausblick 



Dieses Kapitel f;iBi die erieichten Ergebnisse uu^mmen und woist auf zukunftige 
Weiterenlwick lunge n hiu . 

10.1 Zusammenfassung 

In dieser Arbeit wurden neue Pbersetziinj.^me1hoden fur strukturprogrammier- 
barc Rcclincr vor*'e.stelh . Mit den entwickelte.n Yerfahren konnen aus chier Spe- 
zifikation in einer sequent ielleru.imperat iven Pro&ranmiierspradic automatisch die 
Software- mid Hardware- Anieile einer Anwciicliing sowic die SchinttsLclle 7/wischen 
bride*) generiert werden. Ms handdt sich also tun einen software- basierten Codesign- 
Ausatz fiir cine fesr vor^e^ebfmr. Xielardiiteklur, einen Mikroprozcssor mit cincr 
FPGA-b;.>ien.en rekonh<niiiei -baron' Kinheii. Dabr.i wird nicht die Miiiiinicning des 
Haidware-Bcdarf;- unier Boriirksiclii i»un^ konkreu-r Editzeitanfordeniiigeii, son- 
dern die bestnioglidio Avisumzting finer voihaitdenen Hardware- K on figuration an- 
gestrebt. 

Diesei software- ba>ierte Ansatx ermoglielit os audi Entwir.klern olnic EiTahnmg im 
Hardware- Entwnrf. SJ '-Peehner einzusetzen. 

Hislier bekannte denirtige VVrfaljreii verwenden die Standard- High- Lcvcl-Synthese 
zur Erw-ngung M-konfiguriu barer Kopro/essoi en aus einer sequcntiellen Eingabe- 
ypradiC. Hierbe.i ist di<: erreiehbare ParalJelital jedorh moist anf Opcrationen in- 
ne.rhalb eincs Hasisblocks be^dirankt. Aneh mil den bekanntcn Erweitcrungen 
(KdddfenOMpelining) konnen Sdjleifen mit VVk tor- Xn w'ei sm ] gen nicht optiinicrt wcr- 
dcn. 

Ein wesenliidjor Fortsdiriit dieser Albeit besteht in dor Knlwickhmg einer ncucn 
Meihodc, die ersiiiia)i& ans einer imperat iven. scqiientielloi) Eingabespraxhc dnrdi 
erne verallp;emeiiierU Wku.risic mn«? : eflizienle. paralldc Pipeline- Sehaltmigen syn- 
tlictisiert. Desha ib werdri: «!!c vekuuisierbnren Sdilcifen als Mardware-Kmididaten 
betraehtet. Die zur Vektorisiennig not wondige A bhangigkei IS- Analyse wnrdc genau 
an die Enorden;issc cier flexible;) FPGA-Kopro*/.essoren angepatit. Day.n wur<le der 
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Begriffder regularen Abhangigkeilen definiert, die eine Vektorisierung nicht verhin- 
dern, da s,e ,n e.ncr Pipeline durch Rfickkopplungsregister realisiert werden ionnZ 
Auto , wurfe fur d,e Pipe incs cin auf gan^ahliger lincarer Prograimnierung M- 

FPG A ^li ifl e,1 | . Zllr g Register.M i ni mi crungentwickeit,u„ 1 die knappen 

rh'GA-Hipflops optimal zu nulzen. 

Dcr zweite Hanptbcilrag der Arbeit besteht aus der Entwicklung und Integration 
von auto.nat.sche,, Verfahrcn zur Anstcuerung dcr Pipelines m it einer pfpd " e 
Stenernngse.nhe.t, zur Einbindung der Hardware-Koproacssoren in da, auf dem VV^rt 
In ufende Program m,t vorgegebenen Laufzeit-Funktionen sowie zur dynaxnischen 

sttZf mTm" T ° niCrU " 6 - DiC VCrfahren bcnihen auf aUgemeinen 
SP-Rechner-Modell nnd cmer gencrischen Schnittstelle, die von maschinensDczifi 
scl.en Details ab s t,ahicre„. Sie sind also von dem konkreten SP-RechnTu„d der ^_ 
wendctcn FPGA-Familie unabhangig. Die Pipeline-Synthese und das ScZttZZ- 
Konzept wurden prototype in, Modula P,p EL1ne Cooler realisiert DaJS, 
wurdc die Praxislauglichkeil der Verfahren gezeigt. leajisiert. Uadurch 

Die Ilardware/Softwarc-Partitionierung verwendet Parameter des Rechner-Modells 
U nd wahlt d,e .ohnenden Koprozessoren aus. Dazu benotigt sie 
gen des Ressourcen-liedarfs und der Geschwindigkeit der synlhetisLtrHa^dw^ 
D,ese s.nd fi.r P. P ebnc-Scha.tung e n einfach z„ gewinnen, da der Hardware^Br^ari 
nur yon dcr festen GroBe der vorgegebenen PCU nnd von den in der pTeHnTvef 
vendcten Operators abhangt. Und die Ceschwindigkeit wi, d allein S Jdfd* TaT 
freouenz best.mmt. Ncbcn der erwarteten Beschlcvmigung durch die in" 2o£ 
inussen zur Pan.t.on.crung anch die Kosten fur die Konfjurierung Sg^* 
d.c Datennbcr.ragung zwischen Wirt und RE beniclsichtigt wenlen. DaS wde 

Z Z7Z IT r * ire " entWickClt> daS * ur Wzeit ^ ** ^eUeTit 
en und des KonHgnrationszustands der FPGAs die Ausfflhnmg i„ Software oder 
Hardware auswahlt. Dies cnnoglicht audi eine auto.natische dynamische UnTkonfi 
guncrung dcr FPGAs ,wische„ groBcren Phasen des Program™. 

10.2 Ausblick 

Si t f ntW i Ck,U r g l nt T 5erter CTbersetzer ftir strukturprogrammicrbare Rechner 

wcSi'nh Kwda ^^ Dc - - kcineeinheitlid.eMeinungdTrXl 

wdche Ubcrsetzungs- „„d Synthesclcchniken am besten verwendet werden, „„d w £ 
s> ,„ cinen, emheithchen Systen, intcgricrt werden sollen. AuBerdem hat icn nod, 
£ne allgcniein akzcpl.erte Architektur fur die Rechner selbst herauskristall^ert 
Deswcgen lst d,e vorl.egcnde Arbeit nur ein erster Schritt auf einem Weg di en 
Itichtung noch gar nicht genau abznsehen ist. 8 
Mogliche Erweiterungen der hier vorgestellten Methodik wurden bereits in K ap itel 

I/* STwtl k ^ f T^™™ AnsWk * "* Arbeit- , 

trachtet. werden kann. Be, der Entwicklung eines vollstandigen Ubersetzers soilten 
d.e Empfehlungen a„s Abschnitt 7.4 berCicksichtigt und vor alien, die in Absclit" 
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9.1 erwahnte Integration mit der Optimierung spezieller konibinatorischer Funktio- 
neu implement ierl we.rden. Denn diese sind fur cine besserc Ausnutzuiig der Lei- 
nimgsfahigkcit der RE entsdieklend. 

Znr Portiertmg des Uhersetzers auf groBcrc SP- Red mer (vgl. Abschnitt 9.4) sind 
vor aJlcm weilerfuhrende Arbeiun '-/my Part it ionie rung der S chaining auf mehrere 
FPGAs sow it: znr oplinialen Ni.it/uiig mehrercr Spoidierbaiikc. die tiber die FPGAs 
verteilt sind, not ig. Diivon ist auc.h die Part it ion ie rung bet rotten (Absdmitt 9.3), und 
die Pipelmr-Steuerviug^eiidieirinuIS auf versdm-dene FPGAs vertcill oder teilweise 
duplifciert werden. Kin wriurer Scliriit ware die Yerwendung der fiir arilhmetische 
Heredmungen wdtaus gueigneteren wort-orientierten FPGAs.. 
Sdiliettlich wurde die Ei weiterung des Ubersetzers fur andere Eingabcsprachen (etwa 
ANS1-C) oder die vol 1st andige Inic.gration in ein Hex i hies Compiler- Framework einen 
breiteren Einsalz tier cut wickelten Methoden ennoglidien. Dasselbc gilt fiir die Ein- 
bczichnng eingebetleter SP-Piecliner, also cine Weiterent wick lung in Richtung Echt- 
zeitsysleme. 
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ASIC 

Application-Specific Integrated Circuit (S. 14) 
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Custom Computing Machine (S. 18) 
EVC1 

Engineer's Virtual Computer 1 (S. 18) 
FIR-Filter 

Finite Impulse Response Filter (S. 106) 
FPGA 

Field- Programmable Gate Array (S. 12) 

ILP 

Integer Linear Program / ganzzahliges Hneares Programm (S. 30) 
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MOdula Backend Interface Language (S. 95) 
MOCKA 

MOdula Compiler KArlsruhe (S. 94) 

PCU 

Pipeline Control Unit / Pipeline-Steuerungseinheit (S- 79) 

PLA 

Programmable Logic Array (S. 11) 

RE 

Rekonfigurierbare Einheit (S. 18) 
SP-Rechner 

Strukturprogrammierbarer Rechner (S. 18) 
VHDL 

VHS1C Hardware Description Language (S. 14) 
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Anhang A 



Berechnung der 
Gewichtsverteilung linearer 
Blockcodes auf dem EVC1 

Dieser Anhang bcschrcibt die Implement iernng eiues Algorithmus zur Berechnung 
der Gewichts-verleiliijjg eincs binarcn linearen Blockcodes auf dem EVCl. Wegen 
dcr cxponentiellen ZeitkoinplexiUit dieses Problems wcrden schnelle Implementie- 
rungen benotigt, wofiir die Verwendnng rekonfigurierbarer Hardware sehr interes- 
sant ist: Unsere Implement icnmg i- c l ctwa sicbenmal schneller als die beste bekannte 
Soft ware- Losung und berechnet alle 150 Nanosckundcn ein nones Gewicht. Damit 
konnen fur grofierc Code* mehrorc Tage Rechenzeit eingespart wcrden. Diese hohe 
Oesehwindigkcit wird erreicht, indem die gauze Berechnung in einer tiefen Pipeline 
dnrchgefiilui und {torn it die feinkornige ParalJf Htat der Hardware ausgenutzt wird. 
Autterdem heruht die Jmplcmcnl immg auf codospezifischen Logik-Optimicrungen, 
die bei Verwendnng des Xtandard-Befehlssatzes eiues Mikroprozessors nicht moglich 
si i id. Die Sell alt ung wtirde in VHDL spezifiziert. 

3 m nachstcn Ab?rl!!:in v/t.rden bin a re bnearo B luck codes und ihre. Gewichtsvertei- 
lung knrz eingefiihrt. Danach sielli Abschnitt.A.2 die wichtigsten Eigcnschaften un- 
sercr ImpJcnionl iernng vor. und AbsclmiU A. 3 prascnticrt einige Laufzeitmessungen, 
die- die erreirhte Leist ungssl-eigcnmg zeipen. Schliefilich diskutieren wir in Abschnitt 
A A. wie die Schaltung antomatisci* aus einer hohercn Program miersprache (statt 
a ns VHDL) generiert wcrden konnte. 

Die liier vorgest elite Implement iernng wurde bereits in [Wei96b] verb f Font licht. 

A.l Gewichtsverteilung linearer Blockcodes 

Binare Blockcodes sind [A 7 , A'J-Codcs, cliccincn A'-Bit-Block (das Injormaiionsworty 
auf ein N-Bh-Codcxvort abbildeu. Da A' > K gilt, enthalt ein Codcwort N-K red- 
uiidante Bits. Der Grad der Redundant wird durch die Codcrate R = j£ bestimint. 
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Da nicht alle Af-Bit-Worter gultige Codeworter sind, ist es moglich, Fehler zu er- 
kennen und zu korrigieren. Die Qualitat eines binaren Blockcodes wird durch die 
Wahrscheinlichkeit eines nicht entdeckten Fehlers bestimrnt- Und diese hangt von 
der minimalen Hamming-Distanz zweier beliebiger Codeworter ab. 
Wir betrachten hier nur lineare Codes y also Codes, die durch eine binare K x N 
Generatormatrix dargeslellt werden konnen. (Ein Codewort c wird dann durch die 
Matrizenrmiltiplikation c = i * G modulo 2 berechnet.) Glucklicherweise ist fiir li- 
neare Codes die minimale Distanz zweier Codeworter gleich der minimal en Distanz 
eines belicbigen Wortes zu 6. Diese Distanz, die der Anzahl der Einsen in dem Wort 
entspricht, wird Gewicht des Wortes genannt. Folglich mussen zur Beurteilung der 
Qualitat eines Codes statt der Distanzen nur die Gewichte der Codeworter betrach- 
tet werden. 

Die Gewichtsverteilung {W(r) | 0 < r < N] eines [TV, if]-Codes beschreibt die 
Zahl der Codeworter mit dem Gewicht r. Aus ihr kann naturlich das minimale Ge- 
wicht abgclesen werden. Aber die Verteilung ist auch von theoretischem Interesse, 
da sie Aussagen uber die asymptotische Optimalitat einer Codefamilie ermoglicht. 
Urn W(r) jedoch zu bestimmen, mussen die Gewichte aller 2 K Codeworter berech- 
net werden. Wegen dieser exponential en Komplexitat ist die Berechnung der Ge- 
wichtsverteilurig bereits fiir relativ kleine Codes ein schwieriges Problem. Effiziente 
Algorithmen existieren nur fiir Codes mit besonderen Eigenschaften. Und fur Co- 
des mit K > N - K konnen die MacWilliams-ldeniiiaien benutzt werden, um 
den Rechenaufwand zu rcduzieren. Dabei wird die Gewichtsverteilung des im all- 
gemeinen kleineren dualen {N,N - A'j-Codes C x berechnet, um die Verteilung des 
[A ; , K]-Code$ C zu erhalten. Folglich liegt die schwierigste Situation dann vor, wenn 
K = N - K t d. h. R = 0.5, gilt. Dcshalb betrachten wir nur diesen Fall und nehmen 
keine zusatzlichen besonderen Eigenschaften der Codes an. 

A . 2 Implement ierung 

Wir implernentierten eine Gewichtsverteilungs-Schaltung mit tiefer Pipeline auf ei- 
ner Sun SPARCstation 10 mit der EVCl-Karte der Virtual Computer Corporation 
(vgl. Abschnitt 7.1). Sie berechnet zunachst fiir alle Informationsworte i das Code- 
wort c = i-G modulo 2. Dann wird das Gewicht von c bestimmt und ein Zahler fur 
dieses Gewicht erhoht. 

Leider muB die FPGA-Schaltung fur jeden Code, den wir bewerten wollen, teilweise 
neu synthetisiert sowie nochmals plaziert und verdrahtet werden. Dies ist wegen 
der sehr begrenzten rekonfigurierbarcn R.essourcen auf der EVCl-Karte notig. Sie 
reichen nicht aus, um die Generatormatrix des Codes in den FPGA-Flipflops auf der 
Karte zu speichern. Vielmehr mufi sie in der VHDL-Beschreibung eine Konstante 
sein, damit cine Logik-Optimierung moglich ist. Obwohl die Andening der Schaltung 
fiir jedes Problem mehr als eine Stunde dauern kann, lohnt sich dieser Aufwand, da 
fur grofiere Codes Tage an Rechenzeit eingespart werden konnen (s. Abschnitt A. 3). 
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Die Srhallung wurde „rii do, Synopsys FPGA Compiler und X.l.»« XACT ent- 
w rke Dcr V.-e hi.tw.uf i» VHDL niodellicrt und lint dem Synopsys 

VliDl Compiler vembdirt. tatod. nu.6t.cn deUullieHe Ze.tbod.ngnngen fur d.e 
XNK Sig e n.a,UK-l. spc«ifiziert werden, dan.it. das PPR-Prograrnm von XvUnx 
HtorLg und Vcrdn.ht,n, R ) cine schucHe So.halu.ng crzeug... Da aber der Takt 
, i m n nicht an d.c. von PPH « ■«* h.en Sigualvmogon.ngcn angepaBt werden 
11. rnnBu- die AWanfplanung i,. d,», YHDL-Modcll gcRndcrt werden, urn d,e von 

Dadurch wurde., zeitaniwodige Wiedcrholungen des Kntwnrfeyklus e.forduhch. 
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Abbildnug A.l: Gcwichtsvcrteilungs-Schaltung 
Anbi.dung A.l xcigt don Ann,,, der 

!V tf-Coda n.it. A r < 128 und K < «4 et.tvorfcn. Der A-B.t^aluer crzeugt 
zvnachM. alle n.oglichen Bilmnster (d. h. mrormalionsworlcr) „nd spcist den Ge- 
nm,«r dan.it- IJKcser Block in.plc n.cntiort die Mod..lo-2-Mult.pl.kat.on nut, dor Ge- 
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neratormatrix G. Da der Generator nur XOR-Gatter enthalt, kann er gut logisch 
optimiert werden und effizient (d. h. platzsparend) auf FPGAs implementiert wer- 
den. Danach berechnet der WEIGHT-Block das Gewicht aller iV-Bit-Codeworter. 
Schliefilich werden Zahler fur die entsprechenden Gewichte erhoht. 
Das grundlegende Entwurfsziel fur diese Schaltung war, den Durchsatz zu maxi- 
mieren. Dies kann durch Pipelining fur den Generator- und den WEIGHT-Block 
praktisch unbegrenzt erreicht werden. Auch der einfache Zahler zur Erzeugung der 
lnformationsworter kann effizient implementiert werden. Der Gesamtdurchsatz wird 
aber durch die Speicher/Inkrementierer-Ruckkopplungsschleife zur Erhohung der 
Gewichts-Zahler begrenzt. Deshalb wird fiir die Gewichts-Zahler der schnelle on- 
chip RAM des Xilinx XC4013 FPGA verwendet (rechts unten in Abbildung A.l). 
Wegen der begrenzten FPGA-Ressourcen und der von der Wortlange abhangen- 
den Verzogerung eines Inkrementierers werden jedoch nur die acht niedrigstwertigen 
Bits der Zahler in diesem RAM gespeichert. Ein Uberlauf (OVERPLOW-Signal in 
Abbildung A.l) eines Zahlers bewirkt, dafi ein anderer Zahler in dem externen lo- 
kalen Speicher auf der EVCl-Karte erhoht wird (Ruckkopplungszyklus mit zweitem 
INCREMENT-Block oben rechts in Abbildung A.l). Wahrend des Zugriflfe auf den 
langsamen externen Speicher wird die Pipeline angehalten. Da diese Ausnahme- 
behandlung jedoch nur bei einem Uberlauf durchgefuhrt wird, verringert sich der 
mittlere (amortisierte) Durchsatz der Schaltung kaum. 

A. 3 Laufzeitmessungen 

Wegen des schnellen on-chip RAM und der schnellen Inkrementierer, welche 
die "dedicated carry logic" des XC4013 einsetzen, erwarteten wir fur den Lese- 
Inkrementiere-Schreib-Zyklus eine Signalverzogerung von hochstens 75 ns. Obwohl 
die Plazierung und Verdrahtung durch genaue Zeitbedingungen gesteuert wurde, 
erhohten hohe Verdrahtungs-Verzogerungen die Zykluszeit jedoch auf 150 ns. Der 
Durchsatz der Pipeline ist also etwa 6.7 Millionen Gewichtsberechnungen pro Se- 
kunde. Folglich kann die Gewichtsverteilung eines [70, 35]-Codes (2 s5 Gewichte) in 
weniger als 1.5 Stunden berechnet werden. Zur Berechnung derselben Verteilung 
in Software waren mindestens 9.5 Stunden notig, da die beste uns bekannte se- 
quentielle Software-Implementierung (vgl. [KM96, KLB95]) eine Mikrosekunde pro 
Gewicht benotigt. Fiir diese Implementierung wurde der Algorithmus auf einer Sun 
SPARCstation 10 mit grofiem Cache- Speicher manuell optimiert. Der Cache enthalt 
dabei eine vorberechnete Tabelle der Gewichte aller 1 6-Bit- Worte. 
In Tabelle A.l werden die Laufzeiten unserer SP-Rechner-Implementierung mit der 
erwahnten Software-Implementierung verglichen. Die relative und absolute Beschleu- 
nigung fur K = 30, 35 und 40 wird angegeben. 1 Die Werte schliefien jedoch die Zeit 
zur Synthese des FPGA-Bitstroms nicht ein. 

J Die EVCl-Laufzeit wurde fur K — 30 und K = 35 tatsachlich gemessen, aber noch nicht fur 
K = 40. 
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K 


Iterationen (2 A ') 


Lanfceit 


Laufaeit 


relative 


absolute 






EVCl 


Software 


Beschlcunigung 


Bescbleunigung 


30 


^ 1 x 10* 


2.7 Min. 


17.9 Min. 


6.7 


15.2 Min. 


35 


^ 34 x 30 9 


1.4 Sid. 


9.5 Sid. 


6.7 


8.1 Std. 


40 


^1 xlO J2 


J .9 Tape 


12.7 Tage 


6.7 


10.8 Tage 



Ta belle A.l: Laufzeil-Vergleidi 



s sollte audi envahnt werdeu. dafi die Berechmnig in der Hardware fast unabhangig 
m der Sun- Workstation ablaufl: Nadi der Synlhcse findet die ganze Berechnung 
t:r Gewichtsverteilunfc anf der KVC'J-Karte Matt, so dafi der Wirt fiir parallele, 
nabhangige Aufgaben frei ist. 

\.4 Programmierung in hoheren Sprachen 

>i»*ser Abscbnitt diskuliert, wie die in Abschuitl A.2 vorgesleille Schallung automa- 
i-^rli aus einem Algorithmic in einer hoheren Program mi ersprache gewonnen werden 
■ •mile. 

* • i!S eine Pipeline- Schaltnng ist, ware eine Synth ese aus Vektor-Code — vergleiche 
i»vi:1n)iu 4.3.2 — mofclich. Abbildung A.2 zeigt ein Gewichtsverteihings-Programm 
VVk tor- Code, in dem alle Variablen Dalen-Vektoren reprasentieren. 



(1) I := 3; 

(2) 1 := ADD-SCAN(I); 
CO C := KAT-KULT (I ,G) ; 
(A) w := WEJGHT(C); 
(S) INCR-RAK(C()UKT,W); 



(* erzeugt Vektor 1, 1, 1, ... *) 

(* erzeugt Vektor 1, 2, 3, ... *) 

C* Matrizennmltipl . mod 2 tait G *) 

(* bereclmet Gev7icht von C *) 

(* erhoeht Element W in COUNT *) 



Abbildung A.2: Vck lor- Code fur Gewichlsvcrlciluii£ 



■•-» konnten mehrstufige. Iinpleinenlicnuigcn der Operaloren MAT-MULT und 
f :HT automatisch durch beknnnte Synth ese-Methoden erhalten werden. Jedoch 
1 *" der Operator INCH-HAM 211 der d aten- parallel en Spradie in (Guc95] hinzu- 
■1 werden. Er benot-igt cin lokalcs Stcuerwcrk, um in cincm Pipcline-Takt den 
I lescn und sdireiben zu konnen. Die optimierte Speicherallokation (Zahler teil- 
- on-chip, teilweise extern) mil deni Medianismus zur Ausnahmcbehandlung 
• jedodi kaum automat isch erreidit werden. Dasselbe gilt fiir die manuell er- 
**n Zeitbedingungen. 

!.;khste Schritt ist die Erzeugung der Sdialtung aus einem sequentiellen Pro- 
m. das keine speziellen Vektor- A nweisungen benotigt. Abbildung A. 3 zeigt ein 
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• '38 ANHANG A. GEWICHTSVBRTEWVNG L1NEAREK BLOCKCODES 
■^ ma ^^^ m . „ doer inipmtiven 

(1) FOR tf:=o TO K DO 

(3) END C Mitialisxert Gevichtszaeliler *) 

(4) 

(5) FOR I;=o TO (2~K)-1 DO 

S ;::^ C): (* ^ atr izenmultipl. mod 2 oit C 

(9) end "ilWj + 1, (, erhoeht Gewichtszaehler *) 

Abbildung A.3: Gewichtsverteilungs-P^a^ in ^ 

aus sequen . 

nicht angewendet W frd n da dif Foi ScS. f ^ fa Abbi,d ™g A.3 

risierbar ist. Denn in Ze"le 8 wir !.!S 1 ! ? den Zdlen 5 bis 9 **** vekto- 
wodurch eine MdS.^^i^^.f^ Feld zugegriffen, 

also uberlappt in einer pTpeHne austlht 7 ° ie 6 und 7 

des Gesamtdurchsatz^ Es w"e Jjc > c » I^T V beSChriebene Begrenzung 
zur BchandJung von Spcirte^nlSn in P ^ ^ er ' 5uterte E ™teru„g 

die Funktionen MAT-MULT mid^^GHT dip'p 68 AuBerdem wird 

noch weiter optimiert werden llm i7T . Uch dann mufi die Schaltung 
erreichen. P ^ Um d ' e Gescb ™nd,gkeft des manuellen Entwurfe «f 

A.5 Zusammenfassung 

Unsere Experimente zeigen, daB auch sehr ldeine <?P R^».„. r- . 
senschaftJiche Probleme nutzlich sind N„r ZZ , £ er fur rechenintensive wis- 

die Berechnung der Gewichtsverte^t !! t ***** Para,le, **hner konnen fur 
Ple-nentierungerreicht TSSS^S^SST' ™ rekonfigurierbaren In,- * 
-*>- d -^^ 

barer Systcne die zeigt dlafi SP p!^" 6 T'J f"^*" ^igenschaft rekonfigurier- 
-diee.nA.^rj^ 
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gen verbreitel eiugeselzl wcrden, bcuotigt der Wissenschaftler jcdoch Werkzeuge, 
uin SP-Rechner ohne Kenntnisse im Hardware-Entwurf programmieren zu konnen. 
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Anhang B 

Ganzzahliges lineares Programm 
zur HW/SW-Partitionierung 

Dicscr Anhang formalisiert das Problem der Hardware/Software-Parti ti on ierung zur 
Programmbeschleunigung mit programmspezifischen Koprozessoren als ganzzahli- 
ges lineares Programm (engL integer linear program, ILP), so dafi die Simplex- 
und "Branch-and-Bound"-Optimiexungsalgorithrnen zur Bestimmung der Partitio- 
nienmg eingesetzt werden konnen. Im zugrundeliegenden Maschinenmodell konnen 
die Koprozessoren nicht direkt auf den Hauptspeicher des Wirts zugreifen, und die 
Konirnunikaiion zwischen Wirt und Koprozessor-Karte ist langsam. Deshalb sind 
detaillierte Kenntnisse des Datenflusses notig, um die Kommunikationskosten zu 
minimicren. Das Verfahren bestimmt gleichzeitig, welche Program mteile in Hard- 
ware iinplcmcntiert werden sollten und welche Daten dann kopiert werden miissen. 
Fiir den Modula Pipeline Compiler ist dieser Losungsansatz jedoch nicht sinn- 
voll, da er von kleinen, sequentiellen Koprozessoren ohne Pipelining ausgeht und 
dynamische Rckonfigurierung nicht beriicksichtigt. Wie in Abschnitt 4.2 erwahnt, 
ist er elier fiir das Hardware/Software- Codesign eingebetteter Systeme geeignet. 
Iin folgciiden Abrchnitt werden zunachst die Rahmenbedingungen der Partitio- 
n ierung erlantert. Danach beschreibt Abschnitt B.2 die notigen Vorverarbeitungs- 
sclirittc, bevor das ILP vorgestcllt wird. SclilieBlich wird das fur ein Beispielpro- 
gramm erreichte Ergebnis erlautert. 
Dieses Verfahren wurde bereits in [Wei 95] veroffentlicht. 



B.l Hardware/Software- Codesign 

Im software- orientiert en I lard ware/Software- Codesign wird ein System beschleunigt, 
hidem zeilkritische Teile eines Programms in Hardware ausgefuhrt werden. Dazu 
miissen die geeigneten Programmteile durch ein Partitionierungsverfahren bestimmt 
werden. 

140 
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HDL 







Partiiionicrung 



\ 


f 


Schninsielle 




Software 




Abbildung B.l: Hard ware /Software- Cod esign 



Abbilduiig B.l zeigl ck:ival]gciijc.in«n AuR>au eiucs Codesign- Systems: Ein Profiler 
bestimrm die kritischen Rcgioneii des Kin^abe-Programms und die durdischnitth- 
dic Grotie der Dateustrnktumi, dit in dieseii Re.gionen vcrwendct werden. Diese 
Inforniolionen werd.cn dann bcmiiz1 ; um cine, realisierbare Hardwarc/Software- 
Partitionicrimg 7.11 finden> die die gesdjai^to eneidibare Besddeunigung maxi- 
miert. Ann Hen Haid\vare-Re-ionen wild dann durdi High-Levd-Synthese eine 
KoproR.-ssoi-KclHilUiijg er^eugl. Dei Fofiuau-Tei] wird vojj cinem konventionel- 
Jcn Vbcrsetsicr verarbeitcl, und die Bdmiustellc bestinimt die Synchronisation und 
K 01 inn hi nka lion zwischen Hardware 111 id Software. 

Unsei Beredimuigsmodell gel it von cinci Koprozcssor-Kartc mil. FPGAs undSoka- 
1cm Fpeidicr ans, die mil cinem Wirl nber den System-Bus verbunden ist. Wirt und 
Karte kormen fiber den Bus komirmnizioreii. abcr die Karte kann nicht dirckt auf 
den Haiipisp<-kJie.r zugrcifen, und die. Kommimikation ist langsam. Unser Ziel ist.es, 
diejeni^ev; Proprannnrcgioncii */n wahlem die ir. Hardware' die grofite Bcschleunigung 
cr^chei). Die Bcredmvmg diese.r Partiiionitrujift fiollte efficient scin und die Kommu- 
uikMiojiskosteti zwisclicn Wirt und Kopjo/cssor- Karte berucfcsiditigen. Durch den 
cingc^dnanktejj Znjrriff auf den Spcidicr des Wirts gel ten fur die Regioncn, die in 
Hardware iinplcnienticrt werden kojmem einij^c Kinsdiranknngem Aufierdcm mussen 
die ij; der, Hardware-Regioiien verwendetcn Date.11 cxplizitzu der Karte kopiert wer- 
dcn. (Wir allokieren FPGA-Register fur skalarc YariabJen und lokalen Spcicher fur 
Felder.) 
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Andererseits konnen der Wirt und die Koprozessof-Karte gleichzeitig arbeiten, da 
keine Speicherzugriffskonflikte moglich sind. Die kommerziell erhaltliche EVCl- 
Karte (vgl. Abschnitt 7.1.1) ist ein Beispiel einer Karte, die dieses Berechnungs- 
modell implementiert. 

B.2 Vorverarbeitung 
B.2.1 Kandidaten- A uswahl 

Einer der wichtigsten Punkte bei der Hard ware/Software- Partition ierung ist die 
Auswahl adaquater Kandidaten, die fur erne Hardware-Implementierung betrach- 
tet werden sollten. Man mufi zwischen der Gramikiritat der Kandidaten und der 
Effizienz des Optimierungsprozesses abwagab.' Je kleiner die Kandidaten sind, de- 
sto grofier ist die Zahl der moglichen Partition ierungen. Aber die grofie Zabl der 
Losungen kann die Berechnung des Optimums unmoglich machen. Grofiere Kandi- 
daten beschranken die Zahl der moglichen Partitionierungen, ermoglichen aber die 
Berechnung einer exakten Losung des Optimierungsproblems. 
Ernst et aL [EHB93] betrachten jede C-Anweisung als Kandidaten. So werden auch 
Programm-Regionen, die wahrscheinlich keine Beschleunigung ergeben, betrachtet. 
Da dies eine grofie Zahl moglicher Losungen ergibt, wird eine heuristische Methode 
(Simulated Annealing) vcrwcndet, um eine Partitionierung zu bestimmen. 
Dagegen betrachten Jantsch et al. [JEO + 94b, JEO + 94a] nux vorausgewahlte Kan- 
didaten, die in Bardware implementiert werden konnen und fur die eine Beschleu- 
nigung erwartet wird. So kann die optimale Losung des Partitionierungs-Problems 
durch dynamisches Programmieren gefunden werden. 

Wir uberachmen Jantschs Definition eines Kandidaten [JEO + 94b, S. 97]: Eine 
Programm-Region ist ein Kandidat 

• wenn sie keine Gleitkomma-Operationen und keine Aufrufe externer Bib- 
liotheks- oder Betriebssystemfunktionen enthalt 

• und 

- wenn sie eine innere Schleife oder Funktion ist 

- oder nur Schleifen oder Aufrufe von Funktionen enthalt, die selbst Kan- 
didaten sind. 

Abbildung B.2 zeigt die Struktur cines Beispiel- Algorithmus. Er erzeugt ein Stereo- 
gramm (genaugenommen ein SIRDS, Single Image Random Dot Stereogram) einer 
Graustufen-Datei, die eine dreidimensionale Szene beschreibt [TIW94], Die Regio- ) 
nen in den cckigen Klammern wurden weggelassen, damit die Abbildung klarer wird. 
Die nach der obigen Definition bestimmten Kandidaten-Regionen sind mit HI, H2 
und H3 markiert. 
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for (y=0; y <= maxY; y++) { 




HI 
HI 



*/ 



for (x=0; x <= maxX ; x++) t 

< non-candidate code defining left, right > 
if (0 <= left fc& right <^ maxX) { 



1 = Fame [3 eft] ; /* 
< candidate inner loop using 1, left, right, same; /* 
defining sajne , left, right > /* 



SI 
H2 
H2 
S2 



*/ 
*/ 
*/ 
♦/ 




> 

< candidate inner loop using maxX, same; defining pix > /* 

< non-candidate code vising pix > 



H3 



*/ 



} 



Abbildung B.2: Struktnr des Beispiel-Programms 



Wir passe n die obon vorpesvellte Mclhodr folgeudennaficn den Anforderungen un- 
scrcs Bcredimingsnjodells an: 

• Zmvdsimgoj konnen y\\ finer Region hin/iigefiigt wcrdon, wenn sie Variablcn 
lx iifilwtn oder definieron. die audj in dt-j Region vorkommcn. Dies kann die 
Mcnt'c der -am kopiereiiden Datcn bol radii lidi rednzieren. In dein Bcispiel der 
Abhildmig B.l? erhaben wir zusatzlidie KandidalciK indem die Zuweisung SI 
oder oder (.tide */ti H2 hin?.nge.fiigl werden, da same in H2 und in beiden 
Znwdsimgen vorkommt. 

» Da keinen dinklm frpeidmrzn griff gibl, nuissen a He Rcfercnxen in ei- 
ncm KandidMen /m rb^rsfMzun^;/ vii bekannl scin, da mil die Daten vor der 
Ausfiihrnng dt* Kandidaien y.nr KarU k o pi c-rt werden konncn. Dies verhindert 
die- Verwcudim^ von /,* i«?ern in don Kan did a ten und bed en Let, dafi Feldcr im 
al]gemeinen koniplelt kopicrt werden miisscn. 

V 

o Jitn\srh el a). !»< i radit en inn- Kandidau-iK die loka] einc Bcsddeunignng be- 
wirken. Wir betradiien aber audi Kandidaten. die cin Program in nnr in Koin- 
binalion mil anderen Regionon be-sdileunigen, in deni sie global die Koinmu- 
nikationskosten reduziorcn. 



Aus der Theoric des Ubersel zerba'.i.s ist beknnnt, daB die Kommtinikatiotis- 
j.ijfbnie.rungen von Progr*.i;imtei]cn clnrdi DatcnfluB- Analyse bestinnnt werden 



E.2.2 Datenfl uB- A n aly se 
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144 ANHANG B. UNBARES PROGRAMM ZUR PARTITIONIERUNG 

konnen. Diese Methode kann auch benutzt werden, um die durch eine gewahlte 
Hardware/Software-Partitionierung implizierte Kommunikation zu bestimrnen. Wir 
mussen globale Definiert- Benuizi-Ketten [ASU86, S. 632] der Variablen in den Kan- 
didaten bestimrnen. Sie stellen eine Beziehung zwischen der Definition einer Variable 
(z. B. eine Zuweisung an die Variable) und den Steilen, an denen dieser Wert benutzt 
wird (d. h. Answertungen der Variable ohne dazwischen liegende erneute Definition), 
her. A us den Ketten ergeben sich folgende Bedingungen fur eine in Hardware im- 
plementierte Region H: 

• Falls Variable v in Region H definiert und in Software benutzt wird, muB v 
nach der Ausfuhrung von H zum Wirt kopiert werden. 

• Falls Variable v in Software definiert und in H benutzt wird, mull v vor der 
Ausfuhrung von H zur Koprozessor-Karie kopiert werden. 

B.3 Linear es Programm zur Partitionierung 

Im folgenden nehmen wir an, dafl die Kandidaten-Regionen und die Definiert- 
Benutzt-Ketten nach Abschnitt B.2 berechnet wurden. Wir werden nun das folgende 
Partitionierungs-Problem losen: 

Finde die Teihnenge der Kandidaten-Regionen, die in Hardware imple- 
mentiert werden mussen, damit die groflte geschatzte Beschleunigung fur 
das ganze Programm erreicht wird. Die Schatzung mufi die Hardware- 
Beschleunigungjdie impliziertenKommunikationskosten und dieBegren- 
zung der zur Verfugung stehenden Hardware beriicksichtigen. 

Da zwischen alien Kandidaten eine Deflniert-Benutzt-Relation bestehen kann, kann 
die Entscheidnng, eine Region in Hardware zu implementieren, die notwendigen 
Kopier-Operationen allcr andcrcn Kandidaten beeinflussen. Folglich kann dieses Pro- 
blem niclit zerlegt werden; wir konnen ein globales Optimum nur finden, wenn wir 
*dle Kandidaten gleichzeitig betrachten. Wegen der beschrankten Zahl der Kandi- 
daten ist cine exakte Losung des Problems moglich, indem es als 0, 1 ganzzahli- 
ges lineares Programm [Len90, Kap. 4.6] rcprasentiert und mit Standard-Methoden 
gelost wird. > 

Ein 0, 1 ganzzahliges lineares Programm wird durch eine reelle mxn Matrix A, einen 
reellen m-Vektor b und einen reellen n-Vektor c definiert. Alle Vektoren x € {0, l} n , 
die die linearen Ungleichungen (Bedingungen) A -x < b und x > 0 erfiillen und die 
lineare Kostenfunktion <? • x minimieren, sind Losungen. 

B.3.1 Notation ) 

Tabclle B.l definiert die erforderliche Notation. Die Definiert-Benutzt-Ketten wer- 
den durch das Pradikat DU(iJ y v) fur ij € I 0 ,v €V reprasentiert: 
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J 

co//(t) 

//W-'or co[i) 

IjWrts 

V 

7 'lime 



Mt-.iige der Kandidaien-lndizes 
Menge der Kandidaten-Rogionen 
Evwcberte Menge der Kandklaten-Indizcs 
Menge der Kandidaten-Regionen en^chl. Pseudo-Region 
Pscudo- Region (Code, dei inanei in Software nnpleraeiiLicrt wird) 
p«*scl i al e A 1 1 zahl der A ufru f e von Hi 
.•csehia/Ve Hardwarc-AiisfiihrunRszcil fur Hi 
i t -<*c]jjii.'/.te Software-Aiisfnbrungszeit Jiir H{ 
! £i*dialMcr Hardwarc:-B«-darf (ZnliJ der Logik-BIocke) fur Hi 
; vablgbare Hard wan- Kftssourrcn (ZMil der Logik-Blocke) 
1 Mi:i:f<: der hi Kandidavcn bemitzten Variablcn 
Grofce von v 6 1' in Byu* (bei Peldcrn gesehatzte DurchschnittsgroBe) 
Daiutr des Kopierens <anc& Byte zwisehen Wirt und Karte 
v c V kommt in Hi vor 



Tabelle B.l : Notation 



DUiiJ.v) <U v wird in Hi definiert und in H i benutzt. 

Urn alio Abbannrkeiten einheitlirh behaudeln zu komicn, represent iert cine Pseudo- 
Region ]i it die Vropaniiiitcile, die immcj in Software implementiert werden. Und 
fin iibcriappende Kronen inussen Abljiingigkehen innerhalb einer Region aus DU 
entfernt werden. 

Das Panii-iojiif rungs-Problem wird durch dk folgenden binaren Variablen reprasen- 
ticrt: 

f J, falls Hi in Hardware implementiert ist 

II, fhlls r vor der Ausfubrung von Hi 
v.ur Kane kopicrt werden muB 
0, sonst 

(1 . falls r nar.h der Ausfiihrung von Hi 
7M\n Win kopiert werden mufi 
0, so nst 



B.3.2 KostfiiiiVinktion 

Die Lo*un- th* f air/w.l.lipm linemen Program^s minimiert die Gesainllaufzcit des 
Prograir.nl die durct. die foigende KfMnJxnMion C =-- C, + C 2 rcprasenticrt wird, 
wobei 

t'i " 51 - SWthn<v)\ • calf(i) • x { (B.l) 

»g7 
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t<=7 „CU«.W. ' ^ / 



C, reprasentiert die Ausfuhrungszeit der Kandidaten. Man beachte dafl die 
Ausfiihrungszeit dcr in Software implementierten Regionen nicht gezahlt wird da wir 
dicjemge Part.lionierung (inden mussen, die die Ausfiihrungszeit relaliv zur reinen 
Softwarc-Losnng (fur die C, = 0 gilt) minimiert: C 2 reprasentiert die Kommunika- 
tionskosten. Da Konstanten nur einmal kopiert werden mussen, definieren wir fur 
Konstanten Cnum(i,v) = 1 u ,.d andernfalls Cnum(i t v) = call(i). Fur die reine 
Software-Losung ist C 2 = 0. 

B.3.3 Bedingungen 

Die folgenden Bedingungen werden zur Definition ssulassiger Losungen benotigt: 
Der Software-Teil kann niemals in Hardware implemcntiert werden: 

x °=° (B.3) 

GrfindentSJt f ' ir ^ PaeaMtg ^ ou H ° wird aus den obengenannten technischen 

Aus einer Menge von uberlappenden Kandidaten kann nur einer in Hardware im- 
plementtert werden: 

Vi€/: £ Xj <\ (B4) 
In Abbildung B.2 trifft diese Bedingung auf H2 und seine Erweitemngen zu 
^AblcIiU bST MengCn BedingUngen re P r ^ieren die Abhangigkeiten 

Falls DU(i,j,v), H { in Hardware und Hf in Software, dann mufi v nach der 
Ausfuhrung von H { aim Wirt kopiert werden: 

^^h,veV,DU(i,j,v),HaH r . Xi - y. Xk <ou ti „ (B.5) 

Falls DU(i,j,v), in Hardware und H { in Software, dann mufi v vor der 
Ausfuhrung von H s zur Koprozessor-Karte kopiert werden: 

Vi,j€/o,vGK,W(i,;»,// j2i? . ;I .. £ Xk < in . v (Bfi) 

keI 0t H k DH { 

lt\^ ht s d t Kandidat alS in Hardware imp]ementiert gilt, we™ dies fur 
ihn selbst Oder fur erne Region, die ihn enthalt, der Fall ist. (Deshalb stehen die 
bummen in den obigen UngJeichungen.) 

SMiefiUch mussen die ausgewdhtten Kandidaten in die verftigbaren Hardware- 
nessourcen passen: 

HWarea{i) ■ Xi < HWres (B.7) 
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B.4 Ergebnisse 

Wir baben die Methode auf ein Beispicl-Programm angewendet, das den Algorith- 
mic aus Abbikhmg B.2 enthalt. Zur Losung des grmzzahligen linearen Programms 
bemiuten wir den "mixed IP-solver" |Bcr92]. Die Methode bestimmte, dafi die Re- 
gionen Hi, H2 (crweHert um S3 und S2) und K3 in Hardware implementiert werden 
solki). Jm leMtkicrciKlen System wird das Fold same, das Zwischenergebnisse enthalt, 
iii)r in llarcUvjiu -Regionen verwendet und rmifl dcshalb nie kopicrt werden — es mnfi 
im Speicher des Wins nicht eininal allokien werden . Kopier-Anweisungen werden 
nur fiir maxX (zn den Regioijcn 111 uud H3). left, right (zur erweiterten Region H2) 
mid pix (von der Region H3) eingefvigt. Dieses Beispiel zeigt, dafi die Betrachtung 
genauer Dal enfiu 15-1 nformationen in der Panitionierung einen bedeutenden Einflnfi 
auf die Gesanuqualitat der resultiercnden Hardware/Software-Losung hat. 

B.5 Zusammenfassung 

Wir prasenticrten ein ganzzahliges lincares Program in fur die Hardware/Software- 
Partitionierung im Roftware-orientiertcn Codesign, das erstmalig detaillierte 
Datenflufi-] nformationen beriicksichtigt. Dam it konnen die Regionen, die in Hard- 
ware im piemen tiert werden sollten, zusammcn mit den implizierten Kopier- 
Operationen efficient hesti in mt werden. Wir liaben den Einflufi der Methode auf die 
Auswahl der Hardware- Regionen demonstricrt. Die Methode kann auch fur grofie 
Programme eingesetzt werden, da die Zahl der Kandidatcn in den meisten Fallen 
begrenzt ist. Obwohl ganzzahlige linearc Programme im allgemeinen NP-hart sind, 
konnen praktische Problcme modcrater GroBc efhzient mit Stand ard-AIgorithmen 
gelost werden. 
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